CN111309919B - 文本分类模型的系统及其训练方法 - Google Patents
文本分类模型的系统及其训练方法 Download PDFInfo
- Publication number
- CN111309919B CN111309919B CN202010209133.5A CN202010209133A CN111309919B CN 111309919 B CN111309919 B CN 111309919B CN 202010209133 A CN202010209133 A CN 202010209133A CN 111309919 B CN111309919 B CN 111309919B
- Authority
- CN
- China
- Prior art keywords
- text
- information
- meta
- representation
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 title claims abstract description 36
- 238000013145 classification model Methods 0.000 title claims abstract description 31
- 239000010410 layer Substances 0.000 claims description 102
- 230000006870 function Effects 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 24
- 239000011229 interlayer Substances 0.000 claims description 14
- 238000010586 diagram Methods 0.000 description 10
- 235000019580 granularity Nutrition 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000005266 casting Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种文本分类模型的系统,用于文本的多层级分类,文本与至少一个元信息相关联,包括:输入层,用于接收文本和至少一个元信息;表示层,用于根据文本和至少一个元信息产生文本的文本表示,文本表示包括文本语义表示和文本元信息表示;多个特征层,每个特征层用于从文本表示提取相应层级的分类特征;输出层,用于根据分类特征产生文本的多层级分类标签。本发明还提供了一种用于训练多层级文本分类模型的训练方法。
Description
技术领域
本公开涉及计算机技术领域,更具体地,涉及一种文本分类模型的 系统及其训练方法。
背景技术
如今互联网上囊括了海量的信息,如何在不同粒度上合理安排并利 用这些数据,以达到不同的目标是一项有挑战并意义非凡的工作。一般 而言,想要达到这种目标通常是使用不同粒度的标签,即多层级分类系 统对信息进行归类整合,并在使用时根据需求结合相应粒度的标签来检 索对应的信息。
例如,在一个三级的文本分类体系中,一级标签作为一个粗粒度标 签来对全站内容进行领域的归档整合作用,方便观察与分析站内内容的 整体分布情况。二级标签作为相对一级粒度细一些的标签,起到区分每 个领域主要的细分方向的作用。三级标签作为这个体系下最小的粒度, 主要起到对文本细节信息进行刻画的作用,比如,同为小说,到底是武侠小说还是言情小说,这种维度的信息都会在三级标签上进行刻画。
在知乎的业务场景中,文本(例如,问题标题、问题描述、回答) 具有用户或管理员编辑的元信息(例如,话题),其反映出文本的上位概 念,是较为准确的先验信息,这种元信息本身蕴含着可以用于文本分类 的概念信息。然而,现有技术的文本分类方法通常直接从文本本身,比 如使用文本的语义向量来产生文本的分类标签,忽略了与文本相关的元 信息,导致分类结果不理想,尤其在多层级分类体系下分类结果较差。
发明内容
有鉴于此,本发明提供了一种利用文本的元信息进行文本分类的分 类模型,其能够高效准确地在多层级文本分类体系下进行文本分类,本 发明还提供了该分类模型的训练方法。
根据本公开的第一方面,提供了一种文本分类模型的系统,用于文 本的多层级分类,所述文本与至少一个元信息相关联,包括:
输入层,用于接收所述文本和所述至少一个元信息;
表示层,用于根据所述文本和所述至少一个元信息产生所述文本的 文本表示,所述文本表示包括文本语义表示和文本元信息表示;
多个特征层,每个特征层用于从所述文本表示提取相应层级的分类 特征;
输出层,输出层用于根据所述分类特征产生所述文本的多层级分类 标签。
在一个可能的实施例中,所述元信息可以是所述文本的话题标签。
在一个可能的实施例中,所述文本元信息表示可以至少部分地基于 元信息的语义表示、所述元信息的语义表示和所述文本语义表示之间的 相关度、以及所述元信息与所述文本的其他元信息之间的相关度而产生。
在一个可能的实施例中,所述文本的语义表示和所述元信息的语义 表示基于BERT模型而产生。
在一个可能的实施例中,所述多个特征层可以是依次连接的全连接 层,每个特征层还可以连接到所述表示层,以接收所述文本语义表示和 所述文本元信息表示。
根据本公开的第二方面,提供了一种用于训练多层级文本分类模型 的训练方法,所述多层级文本分类模型具有多个特征层,其中每个特征 层用于提取相应层级的分类特征,所述方法包括:基于损失函数调整所 述多个特征层的参数,所述损失函数包括层内损失和层间损失。
在一个可能的实施例中,训练数据可以包括文本的文本表示、所述 文本的粗分类标签和细分类标签,所述文本表示包括文本语义表示和文 本元信息表示。
在一个可能的实施例中,所述层内损失可以根据下式计算:
lossln=-(ytrutg*log(ypred)+λ(1-ytruth)*log(1-ypred))
其中,lossln是层内损失,ytruth是真实值、ypred是预测值,λ是超参。
在一个可能的实施例中,对于粗标签的特征层,λ=1,对于细标签 的特征层,λ<1。
在一个可能的实施例中,所述层间损失根据下式计算:
其中,losshierarchy是层间损失,yi是当前分类的预测值,是所述 当前分类的父分类的预测值,n是当前分类层级的分类标签总数。
根据本公开的第三方面,提供了一种用于文本的多层级分类的方法, 包括:
接收文本和与所述文本相关联的至少一个元信息;
根据所述文本和所述至少一个元信息产生所述文本的文本表示,所 述文本表示包括文本语义表示和文本元信息表示;
从所述文本表示提取所述文本的多层级分类的分类特征;
根据所述分类特征产生所述文本的多层级分类标签。
在一个可能的实施例中,所述元信息可以是所述文本的话题标签。
在一个可能的实施例中,所述文本元信息表示可以至少部分地基于 元信息的语义表示、所述元信息的语义表示和所述文本语义表示之间的 相关度、以及所述元信息与所述文本的其他元信息之间的相关度而产生。
在一个可能的实施例中,所述文本的语义表示和所述元信息的语义 表示基于BERT模型而产生。
在一个可能的实施例中,基于上一层级的分类特征以及所述文本语 义表示和所述文本元信息表示来提取分类特征。
根据本公开的第四方面,提供了一种电子设备,包括:一个或多个 处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个 程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行 如本公开第二方面和第三方面所述的方法。
根据本公开的第五方面,提供了一种计算机可读介质,其上存储有 可执行指令,该指令被处理器执行时使处理器执行如本公开第二方面和 第三方面所述的方法。
本公开的多层级文本分类模型系统利用了与文本相关联的元信息, 元信息蕴含着文本相关的层级概念信息,因此,本公开的模型能够准确 高效应用于多层级文本分类。本公开的模型的训练方法所使用的损失函 数包括了关于分类体系的层间损失和层内损失,因此,在多层级分类产生的多层级标签能够较好地与分类标签体系保持一致,符合预先设定的 关系。
本公开的其他特征和优点将在随后的说明书阐述,并且,部分地从 说明书中变得显而易见,或者通过实施本公开实施例而了解。本公开的 目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来 实现和获得。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将 对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中 的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在 不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通 过附图所示,本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例 缩放绘制附图,重点在于示出本申请的主旨。
图1A和图1B示出了根据本发明实施例的典型的文本及其元信息的 示意图。
图2示出了根据本发明实施例的文本分类模型的系统的示意图。
图3示出了根据本发明实施例的文本语义表示的示意图。
图4示出了根据本发明实施例的文本元信息表示的示意图。
图5示出了根据本发明实施例的另一种文本分类模型系统的示意图。
图6示出了根据本发明实施例的文本分类模型的损失函数的示意图。
图7示出了根据本发明实施例的用于文本的多层级分类的方法。
图8示出了用于实现本发明实施例的电子设备的结构示意图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描 述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中, 省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公 开。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多 个”、“多种”的意思,除非上下文另外明确指出。此外,在此使用的 术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员 通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为 具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的 方式来解释。
图1A和图1B示出了根据本发明实施例的典型的文本及其元信息的 示意图。
参照图1A,文本可以包括问题、该问题的描述、以及与该问题相关 联的元信息,例如话题。根据本发明实施例,话题是知乎站内由用户自 己或管理员编辑的标签,反映出问题的上位概念。话题里的问题数在一 万以上,定义为达到一定体量。例如,对于图1A的问题“信仰是什么? 人活着需要信仰吗?为什么呢?”,有多个话题与其相关联,比如心理学、 哲学、人生、信仰、宗教等。根据本发明实施例,这些话题蕴含着与问题相关联概念,而这些概念之间天然地具有上下位关系,也就是说,与 问题相关的话题在文本分类方面上是有价值的。参照图1B,替换地,一 些问题可以只有标题,没有具体的描述。
结合知乎站内的数据特点,本发明使用的基础文本特征主要由文本 的文本语义信息与文本元信息两部分组成,其中语义信息主要由组成文 本的词元提取出来,元信息通过对文本对应的话题提取而成,主要架构 如图2所示,其中,推断部分是模型进行各标签预测的部分,训练部分是通过计算损失函数值调整网络参数的部分,本发明针对多层级标签之 间存在父子关系设计了一种显式对这种层级关系进行建模的损失函数, 以下会分别针对本发明设计的文本语义表示、文本元信息表示、基于标 签层级关系的损失函数进行详述。
图2示出了根据本发明实施例的文本分类模型的系统200的示意图。 系统200的推断部分包括文本语义表示210、文本元信息表示220、文本 表示230、分类预测240。系统200的训练部分包括损失函数250,损失 函数250可以由多层级分类的层内损失251和层间损失252计算得到。
如图所示,可以经由文本输入(input)211、文本词向量(embedding) 212、文本编码器(encoder)213产生文本语义表示210。为了更好的利 用大量无标注网络文本信息,本发明使用预训练语言模型BERT模型 (Bidirectional Encoder Representation fromTransformers)来对文本信息进行编码处理,对应图2中的词向量层212和编码器层213。 而对于输入层211,可以在训练和预测阶段分别采用了不同的策略来处 理。
图3示出了根据本发明实施例的文本语义表示的示意图。如图所示, 训练部分的输入数据可以为文档标题(问题的标题)和内容(问题的描 述)的字符。为了充分利用一篇文档中标题和正文包含的不同信息,将标题和正文的字符通过segment_id区分,由模型学习不同segment_id 对于问题整体语义表示的权重,从而有效的将两部分信息高效的聚合起 来。备选地,还可以增加位置向量,由模型学习不同的position_id对 于问题的整体语义表示的权重。
在预测阶段,为了更充分的利用话题的信息,我们将话题名拼接在 问题标题之后来增强短文本自身的文本信息,与BERT模型一样,输入是 线性序列,两个句子通过分隔符SEP分割,最前面和最后增加两个标识 符号,token表示的是词向量,title token是问题,detail token是 问题的描述,有些问题没有描述。第一个单词是CLS,其表示句子的开端,SEP是分隔符。segment_id用来区别两种句子,训练数据量可以约 300万。
图4示出了根据本发明实施例的文本元信息表示的示意图。根据本 发明实施例,除了文本语义表示,还要产生与文本相关联的元信息的表 示。
结合知乎站内的数据特点,每个文档都会有用户绑定的话题,我们 将这部分称作元信息,通过融合元信息与文档的语义信息来增强文档的 特征表示能力。根据本发明实施例,可以使用两种不同的注意力结构来 产生文本元信息表示。
a.获取文本语义表示,即问题和问题的描述构成的语义信息,由 BERT模型输出,是向量表示的。类似地,还获取元信息语义表示(比如, 话题embeddings),元信息语义表示的产生方式也可以是由BERT模型输 出。
b.使用该文本语义表示和元信息语义表示计算文本-元信息注意力, 用于对元信息语义表示进行加权。也就是说,可以赋予与文本语义接近 的话题较高权重,通过这种方式可以有效地突出话题中的重要部分,使 得这部分重要信息能够更好的利用。具体地,首先计算话题与其对应的 内容的相似度,得到若干个相似度值,对相似度进行归一化处理,得到 一个和为1的概率分布。例如:计算话题“宗教”与该话题下3个内容 a,b,c的相似度值,为0.8,0.1,0.001,对其进行归一化,得到0.9,0.09, 0.01,即和为1的概率分布,则a的权重为0.9,b,c的权重为0.09,0.01。
c.计算自注意力。通过计算每一个话题与其余话题的相关度来对话 题进行加权,这种方式可以有效地消除来自用户绑定话题中不相关项引 入的噪声,计算方式与b类似。
d.基于b和c的注意力结构,产生文本元信息表示。例如,可以将 这两种注意力的权重赋予到元信息表示,产生文本元信息表示。
图5示出了根据本发明实施例的另一种文本分类模型系统500的示 意图。文本分类模型系统500包括输入层510、表示层520、多个特征层 531、532、533、输出层540。文本分类模型系统500用于文本的多层级 分类,文本可以与至少一个元信息相关联。在一个实施例中,文本可以 是问题标题和/或问题描述等,元信息可以是与文本相关联的话题,其中话题是用户或管理员编辑的标签,其蕴含与文本相关联的概念信息。
输入层510可以用于接收文本和至少一个元信息。根据本发明实施 例,可以从站内获取话题标签下的问题数超过一定数量的问题,将这些 问题和它们的标签按照指定格式封装后提供到输入层510。
表示层520可以用于根据文本和至少一个元信息产生文本的文本表 示(textrepresentation),文本表示包括文本语义表示(text embedding) 和文本元信息(topicembedding)表示。根据本发明实施例,在文本是问题的情况下,文本可以由问题标题和/或问题描述形成,文本的元信息 是与问题相关联的话题,例如至少一个话题标签。
在训练和预测时可以使用不同的策略来形成文本语义表示,具体地, 在训练时,表示层520对文档标题(问题的标题)和内容(问题的描述) 的字符进行编码,从而充分利用了一篇文档中标题和正文包含的不同信 息。在一个实施例中,使用BERT模型产生文本语义表示,其中包括字符 词向量、段向量和/或位置向量。例如,问题标题和正文的字符(tokens) 被编码为字符词向量、并且还通过segment_id区分,由模型学习不同 segment_id对于问题整体语义表示的权重,从而有效的将这些信息高效的聚合起来。备选地,还可以增加位置向量,由模型学习不同的 position_id对于问题的整体语义表示的权重。
表示层520还可以用于产生文本元信息表示,文本元信息表示可以 与文本语义表示组合,输入到后续的特征层。如上所述,文本元信息主 要由两种不同的注意力结构组成,即文本话题注意力和自注意力。计算 文本话题注意力时,通过话题词向量与文本语义表示计算文本话题注意力,来对话题进行加权,赋予跟文本语义接近的话题较高权重,通过这种方式可以有效地突出话题中的重要部分,使得这部分重要信息能够更 好的利用。对于自注意力,通过计算每一个话题与其余话题的相关度来 对话题进行加权,这种方式可以有效地消除来自用户绑定话题中不相关 项引入的噪声。也就是说,文本元信息表示可以至少部分地基于元信息 的语义表示(话题embedding)、元信息的语义表示和文本语义表示之间的相关度、以及元信息与所述文本的其他元信息之间的相关度而产生。
文本分类模型系统500包括多个特征层531、532、533。每个特征 层可以用于从文本表示提取相应层级的分类特征,这些分类特征可用于 进一步通过诸如Softmax、Sigmoid等归一化函数产生文本的分类概率和 分类标签。
特征层531可以用于产生文本的一级标签的分类特征,分类特征可 以是向量形式,向量的每个分量对应于文本属于相应分类的预测值。例 如,如果指定的分类体系的一级分类有N1个分类,则特征层531产生分 类特征是N1维向量。类似地,特征层531可以用于文本的二级标签的分 类特征。如果指定的分类体系的二级分类有N2个分类,则特征层532产生分类特征是N2维向量。类似地,特征层533可以用于文本的三级标 签的分类特征。如果指定的分类体系的三级分类有N3个分类,则特征层 533产生分类特征是N3维向量。
参照图5,需要注意的是,用于二级分类和三级分类的特征层532 和533除了连接到上一特征层接收分类特征,还直接连接到表示层520 接收文本表示。也就是说,输入可以按照残差方式形成,将上一级的特 征和原始输入组合作为当前特征层的输入,这样做可以缓解梯度消失的 问题。
本领域技术人员可以理解,尽管图5仅示出了三个特征层,但是特 征层的数量与分类体系的层级数是相关的,因此特征层数量不限于此。
系统500还包括输出层540,用于根据分类特征产生文本的多层级 分类标签。在一个实施例中,输出层可以根据诸如Softmax,Sigmoid 的回归函数将向量形式的分类特征转换为文本属于各分类的概率。一般 地,可以将概率最大值对应的分类作为文本的分类标签。需要注意的是, 存在各级分类标签与分类体系不一致的可能。例如,输出层540产生的一级标签是图书,二级标签是一级标签电子设备下的二级标签,比如,笔记本电脑,这是不正确。
为了避免这种不一致的错误,本发明提供了针对多层级文本分类模 型的训练方法,其损失函数引入了相应的惩罚机制,还提供了一种用于 训练多层级文本分类模型的训练方法。如上所述,多层级文本分类模型 具有多个特征层,其中每个特征层用于提取相应层级的分类特征。根据 本发明的训练方法,基于损失函数调整多个特征层的参数,损失函数包括层内损失和层间损失,以下详细说明。
如上所述,多层级分类体系具有自上而下的归属关系,如果按照现 有主流的方式将每个层级的分类体系单独拆出来作为一个独立的文本分 类任务,那就会丢失这部分信息,使得一个文档在三个层级上的标签失 去对应关系,给使用造成不便。并且,可以认为标签之间存在的天然联 系是一个强的先验知识,可以作为额外信息来引导模型训练,所以本发明还设计了一种基于标签层级关系的损失函数,如图6所示。
图6示出了根据本发明实施例的文本分类模型的损失函数的示意图。 作为示例,图6示出了三级分类的多层级文本分类模型的损失函数的示 意图,本领域技术人员应理解,更多或更少层级的分类模型的损失函数可以具有相似的形式。
图6左侧示出了训练数据,包括输入、标签1、标签2、标签3,其 中标签1-3表示文本的各层级真实分类标签,输入可以是参照图3和图 4描述的文本表示,包括文本语义表示和文本元信息表示。例如,问题 标题和描述构成的语义信息向量为64维,话题代表的元信息向量为64 维,拼接成128维向量。
图6中的多个全连接FC层、L1概率、L2概率、L3概率表示文本分 类模型的神经网络的组成部分。FC层用于从文本表示提取特征,这里的每个FC层分别用于提取对应的层级标签的分类特征。
例如,输入经过一个全连接层,提取到分类特征,再通过例如 Sigmoid函数计算出在所有一级标签的概率分布l1_probability(L1 概率)。将输入与第一个全连接层的输出拼接起来,再经过第二个全连接 层,并通过Sigmoid函数计算出在所有二级标签上的概率分布 l2_probability(L2概率)。将输入与第二个全连接层的输出拼接起来, 再经过第三个全连接层,并通过sigmoid函数计算出在所有三级标签上 的概率分布l3_probability(L3概率)。
然后,根据分类模型计算的在各级标签上的概率分布与训练数据中 的真实标签通过以下公式计算各级标签的损失,损失包括层内损失和层 间损失。
(1)对于层内损失,根据下式1计算:
lossln=-(ytruth*log(ypred)+λ(1-ytruth)*log(1-ypred)) 公式1
其中,lossln是层内损失,ytruth是真实值、ypred是预测值,λ是超参。
根据本发明的实施例,第三级分类(即,细分类)的训练数据可以 是由硬聚类算法(即一个文档只能聚类到一个类中)生成,故一个文档 在这种方式下只能属于一个标签,而实际上知乎站内文本大多数都应同 时属于多个标签。例如,「华为Mate 30系列的爆料信息有哪些,你对 Mate 30系列有哪些期待?」这样一个问题,应该同时属于数码与科技, 而不应该只归属于单一的标签。针对这种情况,第三级分类的损失(细分 类)和其他级别的分类(粗分类)具有不同超参值。
公式1所示,对于第三级分类的损失,降低ground_truth(即公式 1中第一项-ytruth*log(ypred)为0,而使公式1中的第二项(即 λ(1-ytruth)*log(1-ypred))的权重λ小于1,从而鼓励模型打出训练数 据中没有的标签。在一个实施例中,对于L1和L2损失,λ=1;对于L3 损失,λ=0.3。
(2)对于层间损失,根据下式计算:
其中,losshierarchy是层间损失,yi是当前分类的预测值,是所述 当前分类的父分类的预测值,n是当前分类层级的分类标签总数。
本发明的实施例考虑了相邻层级标签之间的一致性。例如,在计算 L1-L2层间损失时,对于L2概率(N2维向量)中的每一个分量的预测值 yi,根据该分量的父分类的预测值计算二者之差。应理解,子分类的 预测概率与其父分类的预测概率应该保持一致,例如,如果文本属于二 级分类“笔记本”的概率较大,那么其属于一级分类“数码产品”的概率也应该较大。因此,本发明的层级损失对于不符合分类体系的预测结 果给出了惩罚。
在实际训练时,总损失函数可以为公式1加公式2,即,将各个层 内损失和层间损失相加,在训练时,调整模型参数直到损失函数最小。
因此,本发明的训练方法对标签体系间的层级关系进行了显式建模, 所以模型预测的结果中各个层级的标签能够符合预先设定的关系,在使 用时可以很方便地对粗细粒度标签进行结合使用。
图7示出了根据本公开实施例的一种用于文本的多层级分类的方法 700。该方法可以使用按照上述训练方法得到的多层级文本分类模型。方 法700包括:
在步骤710,接收文本和与所述文本相关联的至少一个元信息;
在步骤720,根据所述文本和所述至少一个元信息产生所述文本的 文本表示,所述文本表示包括文本语义表示和文本元信息表示;
在步骤730,从所述文本表示提取所述文本的多层级分类的分类特 征;
在步骤740,根据所述分类特征产生所述文本的多层级分类标签。
在一个可能的实施例中,所述元信息是所述文本的话题标签。
在一个可能的实施例中,所述文本元信息表示至少部分地基于元信 息的语义表示、所述元信息的语义表示和所述文本语义表示之间的相关 度、以及所述元信息与所述文本的其他元信息之间的相关度而产生。
在一个可能的实施例中,所述文本的语义表示和所述元信息的语义 表示基于BERT模型而产生。
在一个可能的实施例中,基于上一层级的分类特征以及所述文本语 义表示和所述文本元信息表示来提取分类特征。
图8示出了用于实现本发明的实施例的电子设备的结构示意图。如 图7所示,电子设备800包括中央处理单元(CPU)801,其可以根据存 储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访 问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803 中,还存储有电子设备800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806; 包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出 部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调 器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网 络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸 介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安 装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入 存储部分808。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被 实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产 品,包括承载指令的在计算机可读介质,在这样的实施例中,该指令可 以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811 被安装。在该指令被中央处理单元(CPU)801执行时,执行本发明中描 述的各个方法步骤。
尽管已经描述了示例实施例,但是对于本领域技术人员来说显而易 见的是,在不脱离本发明构思的精神和范围的情况下,可以进行各种改 变和修改。因此,应当理解,上述示例实施例不是限制性的,而是说明 性的。
Claims (11)
1.一种文本分类模型的系统,用于文本的多层级分类,所述文本与至少一个元信息相关联,包括:
输入层,用于接收所述文本和所述至少一个元信息;所述元信息是通过对文本对应的话题提取得到的,话题是由用户或管理员编辑的标签;
表示层,用于根据所述文本和所述至少一个元信息产生所述文本的文本表示,所述文本表示包括文本语义表示和文本元信息表示;
多个特征层,每个特征层用于从所述文本表示提取相应层级的分类特征;
输出层,用于根据所述分类特征产生所述文本的多层级分类标签;
所述文本元信息表示基于所述元信息的语义表示和所述文本语义表示之间的相关度、以及所述元信息与所述文本的其他元信息之间的相关度而产生;
所述文本元信息表示包括文本话题注意力结构和自注意力结构,所述文本话题注意力结构是基于所述元信息的语义表示和所述文本语义表示之间的相关度计算得到;所述自注意力结构是基于所述元信息与所述文本的其他元信息之间的相关度进行加权后确定的。
2.如权利要求1所述的系统,其中,所述文本的语义表示和所述元信息的语义表示基于BERT模型而产生。
3.如权利要求1所述的系统,其中,所述多个特征层是依次连接的全连接层,每个特征层还连接到所述表示层,以接收所述文本语义表示和所述文本元信息表示。
4.一种用于训练多层级文本分类模型的训练方法,使用如权利要求1-3中任一项所述的文本分类模型的系统进行训练,所述多层级文本分类模型具有多个特征层,其中每个特征层用于提取相应层级的分类特征,所述方法包括:基于损失函数调整所述多个特征层的参数,所述损失函数包括层内损失和层间损失;
训练数据包括文本、所述文本的粗分类标签和细分类标签,所述文本表示包括文本语义表示和文本元信息表示;所述文本元信息包括文本话题注意力结构和自注意力结构,所述文本话题注意力结构通过话题词向量与所述文本语义表示计算得到;所述自注意力结构是基于每一个话题与其余话题的相关度来对话题进行加权后确定的;话题是由用户或管理员编辑的标签;
所述层间损失根据下式计算:
其中,losshierarchy是层间损失,yi是当前分类的预测值,是所述当前分类的父分类的预测值,n是当前分类层级的分类标签总数。
5.如权利要求4所述的方法,其中,所述层内损失根据下式计算:
lossln=-(ytruth*log(ypred)+λ(1-ytruth)*log(1-ypred)):
其中,lossln是层内损失,ytruth是真实值、ypred是预测值,λ是超参。
6.如权利要求5所述的方法,其中,对于粗标签的特征层,λ=1,对于细标签的特征层,λ<1。
7.一种用于文本的多层级分类的方法,使用如权利要求4-6中任一项所述用于训练多层级文本分类模型的训练方法训练得到的模型,所述方法包括:
接收文本和与所述文本相关联的至少一个元信息;
根据所述文本和所述至少一个元信息产生所述文本的文本表示,所述文本表示包括文本语义表示和文本元信息表示;
从所述文本表示提取所述文本的多层级分类的分类特征;
根据所述分类特征产生所述文本的多层级分类标签;
所述元信息是所述文本的话题标签;所述元信息是通过对文本对应的话题提取得到的,话题是由用户或管理员编辑的标签;
所述文本元信息表示至少部分地基于元信息的语义表示、所述元信息的语义表示和所述文本语义表示之间的相关度、以及所述元信息与所述文本的其他元信息之间的相关度而产生;
所述文本元信息包括文本话题注意力结构和自注意力结构,所述文本话题注意力结构通过话题词向量与所述文本语义表示计算得到;所述自注意力结构是基于每一个话题与其余话题的相关度来对话题进行加权后确定的。
8.如权利要求7所述的方法,其中,所述文本的语义表示和所述元信息的语义表示基于BERT模型而产生。
9.如权利要求7所述的方法,其中,基于上一层级的分类特征以及所述文本语义表示和所述文本元信息表示来提取分类特征。
10.一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求4至9中任一项所述的方法。
11.一种计算机可读介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行如权利要求4至9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010209133.5A CN111309919B (zh) | 2020-03-23 | 2020-03-23 | 文本分类模型的系统及其训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010209133.5A CN111309919B (zh) | 2020-03-23 | 2020-03-23 | 文本分类模型的系统及其训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111309919A CN111309919A (zh) | 2020-06-19 |
CN111309919B true CN111309919B (zh) | 2024-04-16 |
Family
ID=71158834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010209133.5A Active CN111309919B (zh) | 2020-03-23 | 2020-03-23 | 文本分类模型的系统及其训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111309919B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112131453A (zh) * | 2020-08-26 | 2020-12-25 | 江汉大学 | 一种基于bert的网络不良短文本检测方法、装置及存储介质 |
CN112528019A (zh) * | 2020-12-01 | 2021-03-19 | 清华大学 | 文本中实体关系处理方法、装置、电子设备及存储介质 |
CN112507118A (zh) * | 2020-12-22 | 2021-03-16 | 北京百度网讯科技有限公司 | 信息分类抽取方法、装置和电子设备 |
CN112507120B (zh) * | 2021-02-07 | 2021-06-04 | 上海二三四五网络科技有限公司 | 一种保持分类一致性的预测方法及装置 |
CN113064992A (zh) * | 2021-03-22 | 2021-07-02 | 平安银行股份有限公司 | 投诉工单结构化处理方法、装置、设备及存储介质 |
CN113011529B (zh) * | 2021-04-28 | 2024-05-07 | 平安科技(深圳)有限公司 | 文本分类模型的训练方法、装置、设备及可读存储介质 |
CN113535973B (zh) * | 2021-06-07 | 2023-06-23 | 中国科学院软件研究所 | 基于知识映射的事件关系抽取、语篇关系分析方法及装置 |
CN115599921B (zh) * | 2022-11-28 | 2023-03-31 | 腾讯科技(深圳)有限公司 | 文本分类、文本分类模型训练方法、装置和存储介质 |
CN116385806B (zh) * | 2023-05-29 | 2023-09-08 | 四川大学华西医院 | 眼部图像斜视类型的分类方法、系统、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008342A (zh) * | 2019-04-12 | 2019-07-12 | 智慧芽信息科技(苏州)有限公司 | 文献分类方法、装置、设备及存储介质 |
CN110147499A (zh) * | 2019-05-21 | 2019-08-20 | 智者四海(北京)技术有限公司 | 打标签方法、推荐方法及记录介质 |
CN110442723A (zh) * | 2019-08-14 | 2019-11-12 | 山东大学 | 一种基于多步判别的Co-Attention模型用于多标签文本分类的方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10896385B2 (en) * | 2017-07-27 | 2021-01-19 | Logmein, Inc. | Real time learning of text classification models for fast and efficient labeling of training data and customization |
RU2686000C1 (ru) * | 2018-06-20 | 2019-04-23 | Общество с ограниченной ответственностью "Аби Продакшн" | Извлечение информационных объектов с использованием комбинации классификаторов, анализирующих локальные и нелокальные признаки |
-
2020
- 2020-03-23 CN CN202010209133.5A patent/CN111309919B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008342A (zh) * | 2019-04-12 | 2019-07-12 | 智慧芽信息科技(苏州)有限公司 | 文献分类方法、装置、设备及存储介质 |
CN110147499A (zh) * | 2019-05-21 | 2019-08-20 | 智者四海(北京)技术有限公司 | 打标签方法、推荐方法及记录介质 |
CN110442723A (zh) * | 2019-08-14 | 2019-11-12 | 山东大学 | 一种基于多步判别的Co-Attention模型用于多标签文本分类的方法 |
Non-Patent Citations (1)
Title |
---|
Jonatas Wehrmann 等.Hierarchical Multi-Label Classification Networks.《Proceedings of Machine Learning Research》.2018,第5075-5084页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111309919A (zh) | 2020-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111309919B (zh) | 文本分类模型的系统及其训练方法 | |
Marivate et al. | Improving short text classification through global augmentation methods | |
CN112784578B (zh) | 法律要素提取方法、装置和电子设备 | |
Rashid et al. | A survey paper: areas, techniques and challenges of opinion mining | |
US20190392035A1 (en) | Information object extraction using combination of classifiers analyzing local and non-local features | |
Borg et al. | E-mail classification with machine learning and word embeddings for improved customer support | |
US12002276B2 (en) | Document distinguishing based on page sequence learning | |
Gupta et al. | Authorship identification using recurrent neural networks | |
Wang et al. | Harshness-aware sentiment mining framework for product review | |
CN116775872A (zh) | 一种文本处理方法、装置、电子设备及存储介质 | |
Celikyilmaz et al. | A graph-based semi-supervised learning for question-answering | |
Suresh Kumar et al. | Local search five‐element cycle optimized reLU‐BiLSTM for multilingual aspect‐based text classification | |
Ribeiro et al. | Acceptance decision prediction in peer-review through sentiment analysis | |
Aljamel et al. | Domain-specific relation extraction: Using distant supervision machine learning | |
US11983205B2 (en) | Semantic phrasal similarity | |
CN113435212B (zh) | 一种基于规则嵌入的文本推断方法及装置 | |
Qandos et al. | Multiscale cascaded domain-based approach for Arabic fake reviews detection in e-commerce platforms | |
CN113792144A (zh) | 基于半监督的图卷积神经网络的文本分类方法 | |
Kim et al. | Multi-label Text Classification of Economic Concepts from Economic News Articles using Natural Language Processing | |
Divya et al. | An Empirical Study on Fake News Detection System using Deep and Machine Learning Ensemble Techniques | |
Mumtaz et al. | CustRE: a rule based system for family relations extraction from english text | |
Kumar et al. | Transformer-based Models for Language Identification: A Comparative Study | |
CN116562284B (zh) | 一种政务文本自动分拨模型训练方法及装置 | |
Heintz et al. | Improving Text Security Classification Towards an Automated Information Guard | |
Yan et al. | An Indonesian Sentiment Classification Model Based on Multi-task Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |