CN114281996A - 长文本分类方法、装置、设备及存储介质 - Google Patents

长文本分类方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114281996A
CN114281996A CN202111619122.5A CN202111619122A CN114281996A CN 114281996 A CN114281996 A CN 114281996A CN 202111619122 A CN202111619122 A CN 202111619122A CN 114281996 A CN114281996 A CN 114281996A
Authority
CN
China
Prior art keywords
text
sequences
matrix
target
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111619122.5A
Other languages
English (en)
Inventor
王梦昀
李宝善
郭冬杰
代旭东
盛志超
陈志刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202111619122.5A priority Critical patent/CN114281996A/zh
Publication of CN114281996A publication Critical patent/CN114281996A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种长文本分类方法、装置、设备及存储介质,该方法包括:将获取的目标长文本划分成N个序列后输入目标模型中,分别得到N个序列的文本表示,N为正整数;对N个序列的文本表示进行融合,得到目标长文本的篇章表示;根据目标长文本的篇章表示,得到目标长文本的分类结果。也就是说,本申请将目标长文本的N个序列的文本表示进行融合,得到整个目标长文本的篇章表示,基于整个目标长文本的篇章表示进行分类,即在分类过程中考虑了整个文本的语义信息和上下文信息,进而提高了目标长文本的分类准确性。

Description

长文本分类方法、装置、设备及存储介质
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种长文本分类方法、装置、设备及存储介质。
背景技术
在一些应用场景中,经常涉及到长文本,例如电话咨询等场景,为了便于后期的咨询业务,需要对电话咨询形成的长文本根据话题内容进行分类。但是,对于电话咨询等形成的长文本,不仅文本内容长,且包括较多的口语化表达,重点分散等,使得长文本的分类难度大。
目前采用BERT(Bidirectional Encoder Representations from Transformers,来自转换器的双向编码器表示)来实现长文本的分类,具体是采用滑窗对文本进行切分,分别通过BERT得到每个窗口的分类结果,最后每个窗口进行投票来确定最终的分类结果。但是各窗口之间相互独立,使得分类结果不准确。
发明内容
本申请实施例提供一种长文本分类方法、装置、设备及存储介质,以提高长文本的分类准确性。
第一方面,本申请实施例提供一种长文本分类方法,包括:
将获取的目标长文本划分成N个序列后输入目标模型中,分别得到所述N个序列的文本表示,所述N为正整数;
对所述N个序列的文本表示进行融合,得到所述目标长文本的篇章表示;
根据所述目标长文本的篇章表示,得到所述目标长文本的分类结果。
第二方面,本申请实施例提供一种长文本分类装置,包括:
确定单元,用于将获取的目标长文本划分成N个序列后输入目标模型中,分别得到所述N个序列的文本表示,所述N为正整数;
处理单元,用于对所述N个序列的文本表示进行融合,得到所述目标长文本的篇章表示;
分类单元,用于根据所述目标长文本的篇章表示,得到所述目标长文本的分类结果。
在一些实施例中,所述目标模型包括融合模块,上述处理单元,具体用于将所述N个序列的文本表示进行合并,得到合并矩阵;将所述合并矩阵输入所述融合模块,得到所述融合模块输出的目标长文本的篇章表示。
在一些实施例中,所述融合模块包括线性变换层和融合层,上述处理单元具体用于将所述合并矩阵输入所述线性变换层,分别经过第一权重矩阵、第二权重矩阵和第三权重矩阵的线性变换,得到第一矩阵、第二矩阵和第三矩阵;将所述第一矩阵、第二矩阵和第三矩阵输入所述融合层,得到所述目标长文本的篇章表示。
在一些实施例中,所述融合层包括融合单元和归一化单元,上述处理单元具体用于将所述第一矩阵和第二矩阵输入所述融合单元,确定所述第二矩阵的转置与所述第一矩阵相乘后与标度的比值,所述标度与所述序列的输出维度相关;将所述比值输入所述归一化单元,得到所述N个序列的文本表示的权重;将所述N个序列的文本表示的权重和所述第三矩阵相乘,得到所述目标长文本的篇章表示。
可选的,所述归一化单元包括softmax激活函数。
在一些实施例中,所述目标模型还包括全连接层(fully connected layers,简称FC),上述分类单元具体用于将所述目标长文本的篇章表示输入所述全连接层,得到M个标签的预测概率,所述M为正整数;根据所述M个标签的预测概率,得到所述目标长文本的分类结果。
在一些实施例中,上述确定单元具体用于通过预设的窗口长度和窗口滑动步长,将所述目标长文本划分成N个序列;针对所述N个序列中的每一个序列,将所述序列输入所述目标模型中,得到所述序列的文本表示。
可选的,所述窗口滑动步长小于所述窗口长度。
在一些实施例中,所述模型还包括训练单元,所述训练单元具体用于针对训练数据集中未标注的第i篇文本,将所述第i篇文本输入经过Q轮训练后的所述目标模型中,确定所述第i篇文本关于P个分类的概率,所述Q、P均为正整数;根据所述第i篇文本关于所述P个分类的概率,确定所述第i篇文本的不确定性得分;若所述第i篇文本的不确定性得分大于预设值时,则对所述第i篇文本进行标注;使用标注后的所述第i篇文本对所述目标模型进行训练。
在一些实施例中,若所述目标模型用于单标签分类任务,则训练单元具体用于针对所述P个分类中的每一个分类,将所述分类的概率与所述分类的概率对数进行相乘,得到所述分类对应的乘积,并将所述P个分类中所有分类对应的乘积进行相加,得到第一和值;将所述第一和值的负数,确定为所述第i篇文本的不确定性得分。
在一些实施例中,若所述目标模型用于多标签分类任务,则训练单元具体用于针对所述P个分类中的每一个分类,将所述分类的概率与所述分类的概率的对数进行相乘,得到所述分类的第一乘积;确定一与所述分类的概率之间的第一差值,以及一与所述分类的概率对数之间的第二差值,并将所述第一差值与所述第二差值进行相乘,得到所述分类的第二乘积;将所述第一乘积的负数与所述第二乘积的差值,确定为所述第i篇文本关于所述分类的不确定性得分。
在一些实施例中,若所述第i篇文本为长文本时,则训练单元具体用于将所述第i篇文本划分成K个序列后输入所述目标模型中,分别得到所述K个序列的文本表示,所述K为正整数;对所述K个序列的文本表示进行融合,得到所述第i篇文本的篇章表示;根据所述第i篇文本的篇章表示,得到所述第i篇文本关于P个分类的概率。
第三方面,本申请实施例提供一种计算设备,包括处理器和存储器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序以实现上述第一方面所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述存储介质包括计算机指令,当所述指令被计算机执行时,使得所述计算机实现如第一方面所述的方法。
第五方面,本申请实施例提供一种计算机程序产品,所述程序产品包括计算机程序,所述计算机程序存储在可读存储介质中,计算机的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得计算机实施第一方面所述的方法。
本申请实施例提供的长文本分类方法、装置、设备及存储介质,通过将获取的目标长文本划分成N个序列后输入目标模型中,分别得到N个序列的文本表示,N为正整数;对N个序列的文本表示进行融合,得到目标长文本的篇章表示;根据目标长文本的篇章表示,得到目标长文本的分类结果。也就是说,本申请将N个序列的文本表示进行融合,得到整个目标长文本的篇章表示,基于整个目标长文本的篇章表示进行分类,即在分类过程中考虑了整个文本的语义信息和上下文信息,进而提高了目标长文本的分类准确性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例涉及的一种系统架构示意图;
图2为本申请一实施例提供的长文本分类方法流程示意图;
图3为本申请实施例涉及的目标长文本示意图;
图4A为本申请实施例涉及的BERT模型的一种框架图;
图4B为本申请实施例涉及的BERT模型的网络结构示意图;
图5A为本申请实施例涉及的目标模型的一种网络结构示意图;
图5B为本申请实施例涉及的目标模型的一种网络结构示意图;
图5C为本申请实施例涉及的目标模型的一种网络结构示意图;
图5D为本申请实施例涉及的目标模型的一种网络结构示意图;
图6为本申请实施例涉及的长文本分类方法的一种具体示意图;
图7为本申请一实施例提供的长文本分类方法流程示意图;
图8为本申请实施例涉及的模型训练过程示意图;
图9为本申请一实施例提供的长文本分类装置的一种结构示意图;
图10为本申请一实施例提供的长文本分类装置的另一种结构示意图;
图11为本申请实施例涉及的计算设备的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应理解,在本发明实施例中,“与A对应的B”表示B与A相关联。在一种实现方式中,可以根据A确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。
在本申请的描述中,除非另有说明,“多个”是指两个或多于两个。
另外,为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
图1为本申请实施例涉及的一种系统架构示意图,用户设备101、数据采集设备102、训练设备103、执行设备104、数据库105和内容库106。
其中,数据采集设备102用于从内容库106中读取训练数据,并将读取的训练数据存储至数据库105中。本申请实施例涉及的训练数据包括长文本数据。
在一些实施例中,用户设备101用于对数据库105中的长文本数据进行标注操作,即标注出长文本数据的分类标签。
训练设备103基于数据库105中维护的训练数据,对模型进行训练,使得训练后的目标模型可以准确预测出长文本的分类。训练设备103得到的目标模型可以应用到不同的系统或设备中。
在附图1中,执行设备104配置有I/O接口107,与外部设备进行数据交互。比如通过I/O接口接收用户设备101发送的待分类的目标长文本。执行设备104中的计算模块109使用训练好的目标模型对输入的目标长文本进行分类处理,得到目标长文本的分类结果,并通过I/O接口将目标长文本的分类结果发送至用户设备101。
在一些实施例中,用户可以通过用户设备101对数据库105中的训练数据进行标注。训练设备103使用标注过的训练数据对目标模型进行训练。可选的,训练设备103还可以使用数据库中未标注的数据对目标模型进行无监督的预训练。
其中,用户设备101可以包括手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device,MID)或其他具有安装浏览器功能的终端设备。
执行设备104可以为服务器,或其他具有数据处理功能的电子设备,例如智能终端等。
示例性的,服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备。该服务器可以是独立的测试服务器,也可以是多个测试服务器所组成的测试服务器集群。
本实施例中,执行设备104通过网络与用户设备101连接。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobilecommunication,GSM)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。
需要说明的是,附图1仅是本申请实施例提供的一种系统架构的示意图,图中所示设备、器件、模块等之间的位置关系不构成任何限制。
在一些实施例中,上述数据采集设备102、用户设备101、训练设备103和执行设备104可以为同一个设备。
在一些实施例中,上述采集设备102、训练设备103和执行设备104可以为同一个设备,例如为同一个服务器,用户设备101为另一个设备。
上述数据库105可以分布在一个服务器上也可以分布在多个服务器上,上述的内容库106可以分布在一个服务器上也可以分布在多个服务器上。
目前采用BERT模型来实现长文本的分类,具体是,使用海量文本对基础BERT模型进行无监督的预训练,在下游文本分类任务上对预训练的BERT模型进行微调,得到最终用于文本分类的BERT模型。BERT模型在编码长度上有限制,单次编码支持的最大输入文本长度为512。当输入为长文本(即输入文本的长度大于512)时,一般采用滑窗对文本进行切分,分别通过BERT模型得到每个窗口的分类结果,最后每个窗口进行投票来确定最终的分类结果。
使用滑窗的方法能够解决全文话题较统一的长文本,但由于每个窗口是独立判断分类结果,当两个或多个窗口的分类结果出现分歧时,无法使用投票选出合适的结果。例如在本申请一实施例涉及的对话场景中,话题可能是不断变化的,需要综合每个窗口的上下文语义信息,才能准确判断全文的类别划分。比如对话开篇可能在讲“债权债务”相关的问题,深入了解才发现主要话题涉及“离婚纠纷”,使用简单的滑窗和投票机制会出现两个或多个窗口分别选择不同的标签而无法投票处理的问题。也就是说,目前采用BERT模型来实现长文本分类时,存在分类不准确的问题。
为了解决上述技术问题,本申请通过将获取的目标长文本划分成N个序列后输入目标模型中,分别得到N个序列的文本表示,并对N个序列的文本表示进行融合,得到该目标长文本的篇章表示,再根据目标长文本的篇章表示进行分类,得到目标长文本的分类结果。也就是说,本申请将目标长文本的N个序列的文本表示进行融合得到整个目标长文本的篇章表示,该篇章表示融合了目标长文本的全文语义信息和上下文信息,这样基于该篇章表示进行文本分类时,可以提高目标长文本的分类准确性。
下面通过一些实施例对本申请实施例的技术方案进行详细说明。下面这几个实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图2为本申请一实施例提供的长文本分类方法流程示意图,如图2所示,包括:
S201、将获取的目标长文本划分成N个序列后输入目标模型中,分别得到N个序列的文本表示。
其中,N为正整数。
本申请实施例的执行主体为具有长文本分类功能的装置,例如长文本的分类装置,该分类装置可以为计算设备,或者计算设备中的一部分,例如为计算设备中的处理器。示例性的,上述分类装置可以为图1中的执行设备。其中图1中的执行设备可以理解为计算设备,或者计算设备中的处理器。
为了便于描述,在以下实施例中以执行主体为计算设备为例进行介绍。
本申请对目标长文本的类型不做限制,可以是任意类型,任意场景产生的待分类的长文本。
示例性的,上述目标长文本为电话咨询过程中产生的。例如,在法律咨询热线对话场景下,对话内容主要包括当事人就具体事件和律师交流,以及律师给出建议,将上述通话经过语音转写成文本,对话文本如图3所示。本申请的计算设备可以将上述对话内容归类到定义好的咨询事件类型中,因此,可以将图3所示的对话文本作为目标长文本,执行本申请实施例提供的分类方法,实现分类。
本申请的目标模型支持的数据量有限,例如支持512个字符以内的文本输入,因此,需要将目标长文本划分成N个序列。
在一些实施例中,N个序列的个数是固定的,这样可以将目标长文本划分成N个序列,则N个序列中每个序列包括的字符数量可以相同,也可以不同,本申请对此不做限制。例如,N为10,目标长文本包括2000个字符,则将目标长文本平均划分成10个序列,每个序列包括200个字符。再例如,若N为10,目标长文本包括1998个字符,则将目标长文本划分成10个序列,前9个序列均包括200个字符,最后一个序列包括198个字符。可选的,可以将最后一个序列填充至200个字符。
在一些实施例中,每个序列的长度固定,这样不同的长文本划分得到的序列数可能不同。例如,序列的长度为250个字符,目标长文本包括2000个字符,则可以将目标长文本平均划分为8个序列,每个序列包括250个字符。再例如,例如,序列的长度为250个字符,目标长文本包括1600个字符,则可以将目标长文本平均划分为7个序列,前6个序列均包括250个字符,最后一个序列包括100个字符。可选的,可以将最后一个序列填充至250个字符。
在一些实施例中,根据预设的窗口长度和窗口滑动步长,来划分目标长文本,具体的,上述S201包括如下步骤:
S201-A1、通过预设的窗口长度和窗口滑动步长,将目标长文本划分成N个序列;
S201-A2、针对N个序列中的每一个序列,将该序列输入目标模型中,得到该序列的文本表示。
在该实施例中,通过预设的窗口长度和窗口滑动步长,在目标长文本上进行滑动,进而将目标长文本划分成N个序列,接着,将这N个序列分别输入目标模型中进行处理,得到每个序列的文本表示。
本申请对窗口长度的具体取值不做限制,例如窗口长度为512。
本申请对窗口的滑动步长的具体取值不做限制。
在一些实施例中,窗口滑动步长与窗口长度相等,例如均为512,这样可以保证目标长文本中的所有信息均被处理,且不会存在处理重复信息的问题。
在一些实施例中,窗口滑动步长大于窗口长度,例如窗口滑动步长为600,窗口长度为512。由于目标长文本所包括的内容较多,而重要信息在目标文本中可能会重复出现,在后续的选择过程中会被多次选中,而出现次数少的信息常为非关键信息,可以通过设置较大的滑动步长,剔除掉这些不重要的信息,进而减少待处理的数据量,提高文本分类效率。
在一些实施例中,窗口滑动步长小于窗口长度,例如窗口滑动步长为256,窗口长度为512。这样相邻两个序列(或相邻两个窗口)之间存在重叠部分。目标模型对具有重叠部分的序列进行处理时,可以通过重叠部分获得更充分的上下文语义信息,进而提高分类的准确性。
本申请实施例中,将目标长文本划分成N个序列,将这N个序列分别输入目标模型中进行特征提取,得到这N个序列中每个序列的文本表示。
本申请中序列的文本表示可以理解为该序列的表征向量,该序列的文本表示用于下游的分类任务。
在一些实施例中,序列的文本表示也称为序列的语义表示。
本申请对目标模型的具体网络结构不做限制,可以为任意可以预测出N个序列中每个序列的文本表示的模型,例如,目标模型为基于卷积神经网络(Convolutional NeuralNetworks,简称CNN)的模型,或者可以为基于注意力机制的模型。
在一种可能的实现方式中,本申请实施例的目标模型包括BERT,本申请的计算设备通过目标模型中的BERT得到N个序列中每个序列的文本表示。
图4A为本申请实施例涉及的BERT模型的一种框架图,图4B为本申请实施例涉及的BERT模型的网络结构示意图,该BERT包括多个双向Transformer(转换器),需要说明的是,图4B中的Trm表示Transformer。如图4A所示,BERT模型主要由三部分构成:嵌入层、编码层、池化层。下面对BERT模型的网络结构进行简单介绍。
嵌入层:将输入的序列转换成连续分布式表示(distributed representation),即将输入的序列转换成词嵌入(word embedding)或词向量(word vector),如图4B中的E1、E2等。
一般来说,输入BERT的可以是一个序列,例如上述N个序列中的每一个序列。
BERT先用专门的标记器(tokenizer)来标记(tokenize)序列。标记器先对序列进行基于规则的标记化(tokenization),再进行字词分割(segmentation)。每个序列的第一个标记始终是特殊分类标记([CLS]),与该标记对应的输出向量用作分类任务的文本表示。也就是说,本申请中,将N个序列中的每个序列的第一个词标记为[CLS],将BERT模型输出的该[CLS]对应的向量,确定为该序列的文本表示。
分割完后,每一个空格分割的字符串(substring)都看成一个标记(token),例如将序列中的每一个字作为一个标记(token)。在一些实施例中,标记(token)也称为令牌。图4B中将token记为Tok。
标记器通过查表将这些标记映射成整数编码。
整个序列由三种类型的编码向量表示,分别包括:标记编码(也称为标记嵌入(token embeddings))、段编码(也称为段嵌入(segmentation embeddings))和位置编码(也称为位置嵌入(position embeddings))。其中,标记编码是序列中每个标记转成整数编码后得到的向量。段编码记录每个标记属于哪个序列,0是第一序列,1是第二序列。位置编码记录每个标记的位置,需要说明的是,[CLS]标记对应的位置编码是0。
如图4B所示,将嵌入层输出的嵌入向量表示为E,将特殊[CLS]标记的输出向量(即特征表示)记为C,第i个输入标记的输出向量(即特征表示)记为Ti。
对于给定的标记,其输入表示形式是通过将相应的标记嵌入(tokenembeddings),段嵌入(segmentation embeddings)和位置嵌入(position embeddings)求和来构造的。
编码层:是对嵌入层输出的嵌入向量进行非线性表示,提取出其中的特征(feature)表示。
可选的,编码层是由多个Transformer构成。
其中,Transformer由编码器(encoder)和解码器(decoder)两部分组成。可选的,encoder由多个(例如6个)相同的两个子层组成,第一个子层是多头注意力层(multi-headattention),第二个子层是一般性的前馈神经网络。decoder由多个(例如6个)相同的三个子层组成,第一个子层是掩膜的多头注意力层(Masked multi-head attention),第二个子层是多头注意力层(multi-head attention),第三个子层是一般性的前馈神经网络。
池化层:是将[CLS]标记对应的表示取出来,并做一定的变换,作为整个序列的表示并输出,以及原封不动地输出编码层最后一层输出的每个标记的特征表示。
如图4B所示,BERT训练包括预训练和微调。目前预训练模型通过在海量自然语言文本上进行无监督训练,获得了丰富的自然语言的句法和语义的先验知识,在文本分类等自然语言处理(Nature Language processing,NLP)任务上使用少量数据微调就能够取得很好的效果,本申请使用了BERT-base模型结构作为编码器,在分类任务上进行微调。BERT-base为12层的Transformer网络结构。
在一些实施例中,预训练模型使用BERT-wwm-ext,该BERT-wwm-ext为基于全词掩膜(Mask)的中文预训练模型。常规的BERT-base中,中文是以字为粒度进行切分,没有考虑到传统NLP中的中文分词(CWS)。而在全词Mask中,如果一个完整的词的部分(Word Piece)子词被Mask,则同属该词的其他部分也会被Mask。BERT-wwm-ext使用了中文维基百科、问答、新闻等通用语料进行训练,在中文数据集上能够达到更好的效果。
本申请实施例中,若上述目标模型包括BERT时,则本申请将获取的目标长文本划分成N个序列后,将N个系列分别输入BERT中,BERT对N个序列中的每个序列的处理过程相同,以一个序列1为例进行说明。首先,通过BERT中的标记器对序列1进行标记,具体将序列1中的第一个词标记为[CLS]。接着,确定序列1的标记嵌入、段嵌入和位置嵌入,并将标记嵌入、段嵌入和位置嵌入求和后得到该序列1的词嵌入,并将该词嵌入输入编码层(即输入Transformer)。BERT中的编码层将嵌入层输入的词嵌入进行处理,得到序列1的特征表示,并将序列1的特征表示输入池化层,得到池化层输出的序列1中[CLS]标记对应的表示,将[CLS]标记对应的表示确定为序列1的文本表示,该文本表示用于下游的分类任务。参照上述序列1,可以通过BERT,得到N个序列中每个序列的文本表示。
S202、对N个序列的文本表示进行融合,得到目标长文本的篇章表示。
本申请对N个序列的文本表示进行融合的具体方法不做限制。
在一种方式中,将N个序列的文本表示级联后输入一个卷积层或卷积网络,得到一个特征向量,将该特征向量确定为目标长文本的篇章表示。
可选的,目标长文本的篇章表示与N个序列中每个序列的文本表示的维度相同,例如均为768。
在另一种方式中,如图5A所示,本申请的目标模型包括融合模块,此时,上述S202通过如下S202-A1和S202-A2步骤实现融合:
S202-A1、将N个序列的文本表示进行合并,得到合并矩阵;
S202-A2、将合并矩阵输入融合模块,得到融合模块输出的目标长文本的篇章表示。
示例性的,假设N=3,每个序列输出的文本表示的维度为768,因此,N个序列的文本表示合并得到的合并矩阵A的大小为3X768。
本申请的融合模块的基本思想是计算不同部分的权重后进行加权求和,以实现对不同部分给予不同程度的关注。
在一些实施例中,上述融合模块可以理解为预先训练好的网络模型,将合并矩阵输入该融合模块中进行融合处理,得到融合模块输出的融合向量,将该融合向量确定为该目标长文本的篇章表示。
本申请对融合模块的具体网络结构不做限制。
在一些实施例中,融合模块包括卷积层或卷积网络,该卷积层或卷积网络对合并矩阵A进行特征提取,将提取的特征信息确定为目标长文本的篇章表示。
在一些实施例中,如图5B所示,融合模块包括线性变换层和融合层,此时,上述S202-A2包括如下步骤:
S202-A21、将合并矩阵输入线性变换层,分别经过第一权重矩阵、第二权重矩阵和第三权重矩阵的线性变换,得到第一矩阵、第二矩阵和第三矩阵;
S202-A22、将第一矩阵、第二矩阵和第三矩阵输入融合层,得到目标长文本的篇章表示。
具体的,将合并矩阵A输入线性变换层,该线性变换层使用第一权重矩阵WQ对合并矩阵A进行线性变换,得到第一矩阵Q,使用第二权重矩阵WK对合并矩阵A进行线性变换,得到第二矩阵K,使用第三权重WV矩阵对合并矩阵A进行线性变换,得到第三矩阵V。
示例性的,Q=WQA。
示例性的,K=WKA。
示例性的,V=WVA。
需要说明的是,上述矩阵的运算均为两个矩阵之间的点乘。
接着,如图5B所示,将第一矩阵、第二矩阵和第三矩阵输入融合层,得到目标长文本的篇章表示。
本申请的融合层用于对第一矩阵、第二矩阵和第三矩阵进行融合处理,得到目标长文本的篇章表示。
本申请对融合层的具体网络结构不做限制。
在一些实施例中,融合层为神经网络,可以对输入的矩阵进行融合处理,得到一个融合向量,将该融合向量确定为目标长文本的篇章表示。
在一些实施例中,融合层包括至少一个卷积层,将第一矩阵、第二矩阵和第三矩阵进行级联或其他合并处理后输入至少一个卷积层中进行特征提取,将提取的特征确定为目标长文本的篇章表示。
在一些实施例中,如图5C所示,融合层包括融合单元和归一化单元,此时,上述S202-A22包括如下步骤:
S202-A221、将第一矩阵和第二矩阵输入融合单元,确定第二矩阵的转置与第一矩阵相乘后与标度的比值,该标度与序列的输出维度相关;
S202-A222、将上述比值输入归一化单元,得到N个序列的文本表示的权重;
S202-A223、将N个序列的文本表示的权重和第三矩阵相乘,得到目标长文本的篇章表示。
具体的,将第一矩阵和第二矩阵输入融合单元,通过融合单元将第一矩阵Q与第二矩阵K的转置KT进行相乘,为了维持梯度稳定,避免点乘结果过大,需要除以标度,得到比值B,该比值B为矩阵。其中该标度与序列的输出维度dk相关,例如标度为dk 1/2。接着,将上述确定出的比值B经过归一化单元进行归一化处理,得到每个序列的文本表示的权重分布,即得到N个序列中每个序列的文本表示的权重,该文本表示的权重也为矩阵。然后,将N个序列的文本表示的权重和第三矩阵V相乘,得到最终乘积结果,将该最终乘积结果作为目标长文本的篇章表示,该篇章表示融合了N个序列中每个序列的重要信息,这样基于该篇章表示进行分类时,可以提高分类的准确性。
可选的,上述归一化单元包括激活函数,通过激活函数对上述比值B进行归一化处理。本申请对归一化单元所包括的激活函数类型不做限制。示例性的,归一化单元包括的激活函数为softmax激活函数,本申请通过该softmax激活函数对上述比值B进行归一化处理。
在一些实施例中,融合模块采用Self Attention(自注意力)机制进行融合。
示例性的,上述融合层通过如下公式(1)确定出目标长文本的篇章表示:
Figure BDA0003437307600000141
其中,Attention(Q,K,V)为目标长文本的篇章表示,
Figure BDA0003437307600000142
可以理解为由上述融合单元对第一矩阵和第二矩阵进行处理,得到的比值B,softmax()可以理解为上述归一化单元所包括的激活函数。
S203、根据目标长文本的篇章表示,得到目标长文本的分类结果。
上述步骤得到的目标长文本的篇章表示表征了目标长文本的整体特征信息。基于此,可以根据该目标长文本的篇章表示,可以得到目标长文本的准确分类结果。
在一种示例中,将表征目标长文本的整体特征信息的篇章表示输入预设的分类网络中,得到目标长文本的分类结果。本申请对预设的分类网络的具体网络结构不做限制,只要可以基于篇章表示,实现文本分类即可。
在另一种示例中,如图5D所示,本申请的目标模型还包括全连接层,此时,上述S203包括如下步骤:
S203-A1、将目标长文本的篇章表示输入全连接层,得到M个标签的预测概率,其中M为正整数;
S203-A2、根据M个标签的预测概率,得到目标长文本的分类结果。
本申请实施例,根据上述步骤,得到目标长文本整个篇章的文本表示后,通过全连接层将篇章表示的维度转换为标签个数的维度,例如从768转换为标签个数的维度,得到模型对于每个标签的预测概率。本申请的标签可以理解为分类标签,该分类标签为预设的,本申请对标签的具体类别以及数量不做限制,具体根据实际需要确定。例如上述M=3,这3个标签分别为遗产类、婚姻类、教育类。
示例性的,对于单标签分类任务,经过softmax函数将所有类别的预测概率分布归一化,选择概率最高的标签作为目标长文本的分类结果。
示例性的,对于多标签分类任务,模型输出的每个类别的预测概率经过sigmoid函数,将每个标签的概率归一化至0-1之间。再通过阈值来判断是否输出该标签的概率。可选的,在测试集上动态挑选能够使该标签评价指标得分最高的0-1之间的数值,作为每个标签输出答案的阈值。
在本申请的一具体实施例中,如图6所示,本申请的目标模型包括BERT、融合模块和全连接层,可选的,融合模块为Self Attention融合模块,全连接层包括归一化函数,例如包括sigmoid函数。如图6所示,目标长文本为“我有一个借款借条…债务。”采用滑窗,按照预设的窗口长度和窗口滑动步长,将目标长文本划分成N个序列。每个序列的第一个token设为[CLS],作为表达整个序列的文本信息的输出,将N个序列输入目标模型中,得到每个序列的文本表示,即将每个序列的第一个token对应的输出向量,确定为每个序列的文本表示。接着,将N个序列的文本表示进行级联后输入融合模块中,示例性的,若每个序列的文本表示的维度为768,则级联后的文本表示的大小为768*N。融合模块根据上述S203中的步骤进行融合处理,输出目标长文本的篇章表示,可选的,该篇章表示的维度为768。接着,将篇章表示输入全连接层(FC)进行分类处理,例如,对于多标签分类任务,模型输出的每个类别的预测概率经过sigmoid函数,将每个标签的概率归一化至0-1之间,再根据阈值进行判断是否对该标签的概率输出,例如根据阈值判断后输出如图6所示的分类结果。该分类结果包括该目标长文本属于不同分类类别的概率。这样将概率最高的分类类别确定为目标长文本的分类类别,例如图6中的目标长文本“我有一个借款借条…债务”的分类类别为债权债务。
本申请实施例提供的长文本分类方法,通过将获取的目标长文本划分成N个序列后输入目标模型中,分别得到N个序列的文本表示,N为正整数;对N个序列的文本表示进行融合,得到目标长文本的篇章表示;根据目标长文本的篇章表示,得到目标长文本的分类结果。也就是说,本申请将目标长文本的N个序列的文本表示进行融合,得到整个目标长文本的篇章表示,该篇章表示可以表征整个目标长文本的语义信息和上下文信息,这样基于整个目标长文本的篇章表示进行分类时,可以提高目标长文本的分类准确性。
上文对本申请实施例提供的长文本分类方法进行介绍。在一些实施例中,本申请还涉及目标模型的训练过程。
图7为本申请一实施例提供的长文本分类方法流程示意图,如图7所示,包括:
S701、针对训练数据集中未标注的第i篇文本,将第i篇文本输入经过Q轮训练后的目标模型中,确定第i篇文本关于P个分类的概率。
其中,Q、P均为正整数。
训练数据对于模型训练的效果起到至关重要的作用,在本申请涉及的咨询热线对话分类场景中,自然产生的热线对话文本数量很多,文本长,标注难度大,分类标签存在长尾现象。如果随机采样数据进行标注,容易出现无效标注的情况,即大量的、模型已经学会分类类别的数据仍会不断标注,而模型需要学习的少量的、如长尾标签涉及的数据则很少被标到,这样会浪费标注的时间和人力。
为了解决上述技术问题,本申请通过主动学习的方法,可以通过挑选高质量的数据集进行标注,不仅降低了标注的时间和人力,且可以使模型对未学习的数据进行学习,进而实现对模型的充分训练,从而获得较好的分类结果。
在实际分类系统中,模型迭代过程一般是先标注一批数据后进行模型训练,并验证效果。当效果指标未达到目标时,再补充标注一批数据集进行训练验证,重复这个过程直到指标达到预期或效果不再上升。
而本申请在每一次增加训练数据时都从未标注的候选池中选择一批质量较高的数据集进行标注,使模型训练的效果更好。在这个过程中,进行第一次训练前,所有的数据都是未标注状态,需要无监督的挑选数据集,例如使用K-means聚类的方法将所有文本的句子划分到某一个具体的类别,然后选取包含句子类别最多的篇章作为初始挑选的数据集。这样挑选出来的数据集包含样本的多样性较好,可以使模型学习较全面的信息。
当进行过一轮训练后,如果效果未达标,需要补充数据时,可以针对训练好的模型有监督的来挑选质量较高的数据。例如“消费维权”类型的数据已经标注了300篇,模型已经充分学习了该类型数据的分类,那么接下来同类型的数据可以不再标注,主要需要挑选模型不太确定的数据进行标注。比如标注10篇的“债权债务”的分类类型对模型来说还属于比较难的类型,这些数据对于当前模型来说就是价值较高的数据,使用这些价值较高的数据进行模型训练,相比随机采样选择训练数据,本申请可以达到更好的效果。
本申请的目标模型对每一篇待标注数据可以输出分类结果的置信度,当目标模型对某一类标签置信度很高时代表这篇数据的分类类别已经较为确定,标注的价值不高。反之,当所有分类标签置信度都不高时,代表目标模型对这篇数据的分类结果不确定,需要标注数据参与训练从而提升模型效果。
本申请通过不断选择对模型提升效果有用的数据进行标注,使用更少的数据达到更好的训练效果,从而节省标注的时间和人力。
本申请中模型训练的具体过程如图8所示,首先使用目标模型(该目标模型也称为长文本分类模型)得到训练数据集中未标注的每一篇文本的分类概率,并根据分类概率确定出每一篇文本的不确定性得分,从未标注的数据中选出不确定性得分较高数据进行标注,得到已标注数据。使用这些已标注数据对目标模型进行训练,得到经过一轮训练后的目标模型。重复图8所示的步骤,可以得到最终训练好的目标模型。
需要说明的是,在每一轮训练过程中,选择待标注数据的过程均相同,且在每一次的待标注数据的选择过程中,每一个待标注数据的选择过程也相同。为了便于描述,本实施例以训练数据集中未标注的第i篇文本为例进行说明,第i篇文本为训练数据集中任意一个未标注的文本。
在第Q+1轮训练过程中,针对训练数据集中未标注的第i篇文本,将该第i篇文本输入经过Q轮训练后的目标模型中,确定第i篇文本关于P个分类的概率。
在一些实施例中,若上述第i篇文本为长文本,则需要将第i篇文本划分成多个序列后输入目标模型中,以确定该第i篇文本关于P个分类的概率。具体的,上述S701包括如下S701-A1至S701-A3的步骤:
S701-A1、将第i篇文本划分成K个序列后输入目标模型中,分别得到K个序列的文本表示,K为正整数。
上述S701-A1的具体实现过程可以参照上述S201的描述,在此不再赘述。
S701-A2、对K个序列的文本表示进行融合,得到第i篇文本的篇章表示。
上述S701-A2的具体实现过程可以参照上述S202的描述,在此不再赘述。
S701-A3、根据第i篇文本的篇章表示,得到第i篇文本关于P个分类的概率。
上述S701-A3的具体实现过程可以参照上述S203的描述,在此不再赘述。
S702、根据第i篇文本关于P个分类的概率,确定第i篇文本的不确定性得分。
可选的,单篇文本不确定性的得分可以通过输出分类概率的信息熵来表示。
根据分类任务的不同,上述S702的实现过程包括如下两种情况:
情况1,若目标模型用于单标签分类任务,则上述S702包括如下步骤:
S702-A1、针对P个分类中的每一个分类,将该分类的概率与该分类的概率对数进行相乘,得到该分类对应的乘积,并将P个分类中所有分类对应的乘积进行相加,得到第一和值;
S702-A2、将第一和值的负数,确定为第i篇文本的不确定性得分。
示例性的,通过如下公式(2),得到第i篇文本的不确定性得分:
Figure BDA0003437307600000181
其中,H(X)为第i篇文本的不确定性得分,p(xj)为第i篇文本属于第j个分类的概率。
情况2,若目标模型用于多标签分类任务,则上述S702包括如下步骤:
S702-B1、针对P个分类中的每一个分类,将分类的概率与分类的概率的对数进行相乘,得到分类的第一乘积;
S702-B2、确定一与分类的概率之间的第一差值,以及一与分类的概率对数之间的第二差值,并将第一差值与第二差值进行相乘,得到分类的第二乘积;
S702-B3、将第一乘积的负数与第二乘积的差值,确定为第i篇文本关于分类的不确定性得分。
在多标签分类任务中,每个类别标签预测的概率分布为二项分布,只有是或不是两种结果,因此,每个类别的不确定性得分可以用二值熵来表示。
示例性的,通过如下公式(3),得到第i篇文本关于该分类的不确定性得分:
H(X)=-p(xj)log(p(xj))-(1-p(xj))(1-log(p(xj)) (3)
根据上述情况1或情况2的方法,可以得到第i篇文本的不确定性得分。接着,执行如下S703和S704的步骤。
S703、若第i篇文本的不确定性得分大于预设值时,则对第i篇文本进行标注。
本申请对上述预设值的具体取值不做限制。
S704、使用标注后的第i篇文本对目标模型进行训练。
在实际标注时,根据不同任务不确定性得分的计算方法,对未标注样本进行排序,挑选出不确定性高的数据进行标注,并使用标注后的数据训练模型,多次迭代标注和训练,得到最终训练好的目标模型。实验证明在文本分类任务上,本申请实施例提供的训练数据标注方法相比于随机采样标注数据,使用较少的数据可以达到同样或更好的训练效果。
本申请实施例,在标注过程中挑选有价值的数据作为训练集进行标注,使模型达到目标效果的同时有效减少了训练所需的标注量,加快了训练和标注流程。
以上结合附图详细描述了本申请的优选实施方式,但是,本申请并不限于上述实施方式中的具体细节,在本申请的技术构思范围内,可以对本申请的技术方案进行多种简单变型,这些简单变型均属于本申请的保护范围。例如,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本申请对各种可能的组合方式不再另行说明。又例如,本申请的各种不同的实施方式之间也可以进行任意组合,只要其不违背本申请的思想,其同样应当视为本申请所公开的内容。
还应理解,在本申请的各种方法实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
上文结合图2至图8,详细描述了本申请的方法实施例,下文结合图9至图11,详细描述本申请的装置实施例。
图9为本申请一实施例提供的长文本分类装置的一种结构示意图。该长文本分类装置20可以是计算设备,也可以是计算设备的部件(例如,集成电路,芯片等等),用于执行上述分类方法。
确定单元21,用于将获取的目标长文本划分成N个序列后输入目标模型中,分别得到所述N个序列的文本表示,所述N为正整数;
处理单元22,用于对所述N个序列的文本表示进行融合,得到所述目标长文本的篇章表示;
分类单元23,用于根据所述目标长文本的篇章表示,得到所述目标长文本的分类结果。
在一些实施例中,所述目标模型包括融合模块,处理单元22,具体用于将所述N个序列的文本表示进行合并,得到合并矩阵;将所述合并矩阵输入所述融合模块,得到所述融合模块输出的目标长文本的篇章表示。
在一些实施例中,所述融合模块包括线性变换层和融合层,处理单元22,具体用于将所述合并矩阵输入所述线性变换层,分别经过第一权重矩阵、第二权重矩阵和第三权重矩阵的线性变换,得到第一矩阵、第二矩阵和第三矩阵;将所述第一矩阵、第二矩阵和第三矩阵输入所述融合层,得到所述目标长文本的篇章表示。
在一些实施例中,所述融合层包括融合单元和归一化单元,处理单元22,具体用于将所述第一矩阵和第二矩阵输入所述融合单元,确定所述第二矩阵的转置与所述第一矩阵相乘后与标度的比值,所述标度与所述序列的输出维度相关;将所述比值输入所述归一化单元,得到所述N个序列的文本表示的权重;将所述N个序列的文本表示的权重和所述第三矩阵相乘,得到所述目标长文本的篇章表示。
可选的,所述归一化单元包括softmax激活函数。
在一些实施例中,所述目标模型还包括全连接层,分类单元23,具体用于将所述目标长文本的篇章表示输入所述全连接层,得到M个标签的预测概率,所述M为正整数;根据所述M个标签的预测概率,得到所述目标长文本的分类结果。
在一些实施例中,确定单元21,具体用于通过预设的窗口长度和窗口滑动步长,将所述目标长文本划分成N个序列;针对所述N个序列中的每一个序列,将所述序列输入所述目标模型中,得到所述序列的文本表示。
可选的,所述窗口滑动步长小于所述窗口长度。
在一些实施例中,如图10,所述模型还包括训练单元24,所述训练单元25具体用于针对训练数据集中未标注的第i篇文本,将所述第i篇文本输入经过Q轮训练后的所述目标模型中,得到所述目标模型输出的所述第i篇文本关于P个分类的概率,所述Q、P均为正整数;根据所述第i篇文本关于所述P个分类的概率,确定所述第i篇文本的不确定性得分;若所述第i篇文本的不确定性得分大于预设值时,则对所述第i篇文本进行标注;使用标注后的所述第i篇文本对所述目标模型进行训练。
在一些实施例中,若所述目标模型用于单标签分类任务,则训练单元24具体用于针对所述P个分类中的每一个分类,将所述分类的概率与所述分类的概率对数进行相乘,得到所述分类对应的乘积,并将所述P个分类中所有分类对应的乘积进行相加,得到第一和值;将所述第一和值的负数,确定为所述第i篇文本的不确定性得分。
在一些实施例中,若所述目标模型用于多标签分类任务,则训练单元24具体用于针对所述P个分类中的每一个分类,将所述分类的概率与所述分类的概率的对数进行相乘,得到所述分类的第一乘积;确定一与所述分类的概率之间的第一差值,以及一与所述分类的概率对数之间的第二差值,并将所述第一差值与所述第二差值进行相乘,得到所述分类的第二乘积;将所述第一乘积的负数与所述第二乘积的差值,确定为所述第i篇文本关于所述分类的不确定性得分。
在一些实施例中,若所述第i篇文本为长文本时,则训练单元24具体用于将所述第i篇文本划分成K个序列后输入所述目标模型中,分别得到所述K个序列的文本表示,所述K为正整数;对所述K个序列的文本表示进行融合,得到所述第i篇文本的篇章表示;根据所述第i篇文本的篇章表示,得到所述第i篇文本关于P个分类的概率。
应理解,装置实施例与方法实施例可以相互对应,类似的描述可以参照方法实施例。为避免重复,此处不再赘述。具体地,图9和图10所示的装置20可以对应于执行本申请实施例的方法中的相应主体,并且装置中的各个模块的前述和其它操作和/或功能分别为了实现上述方法中的相应流程,为了简洁,在此不再赘述。
上文中结合附图从功能模块的角度描述了本申请实施例的装置。应理解,该功能模块可以通过硬件形式实现,也可以通过软件形式的指令实现,还可以通过硬件和软件模块组合实现。具体地,本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成,结合本申请实施例公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。可选地,软件模块可以位于随机存储器,闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法实施例中的步骤。
图11为本申请实施例涉及的计算设备的框图,该设备可以是图1所示的执行设备,用于执行上述实施例所述的方法,具体参见上述方法实施例中的说明。
图11所示的计算设备200包括存储器201、处理器202、通信接口203。存储器201、处理器202、通信接口203之间彼此通信连接。例如,存储器201、处理器202、通信接口203之间可以采用网络连接的方式,实现通信连接。或者,上述计算设备200还可以包括总线204。存储器201、处理器202、通信接口203通过总线204实现彼此之间的通信连接。图11是以存储器201、处理器202、通信接口203通过总线204实现彼此之间的通信连接的计算设备200。
存储器201可以是只读存储器(Read Only Memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(Random Access Memory,RAM)。存储器201可以存储程序,当存储器201中存储的程序被处理器202执行时,处理器202和通信接口203用于执行上述方法。
处理器202可以采用通用的中央处理器(Central Processing Unit,CPU),微处理器,应用专用集成电路(Application Specific Integrated Circuit,ASIC),图形处理器(graphics processing unit,GPU)或者一个或多个集成电路。
处理器202还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请的方法可以通过处理器202中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器202还可以是通用处理器、数字信号处理器(digital signal processing,DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201,处理器202读取存储器201中的信息,结合其硬件完成本申请实施例的方法。
通信接口203使用例如但不限于收发器一类的收发模块,来实现计算设备200与其他设备或通信网络之间的通信。例如,可以通过通信接口203获取数据集。
当上述计算设备200包括总线204时,总线204可包括在计算设备200各个部件(例如,存储器201、处理器202、通信接口203)之间传送信息的通路。
根据本申请的还提供了一种计算机存储介质,其上存储有计算机程序,该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说,本申请实施例还提供一种包含指令的计算机程序产品,该指令被计算机执行时使得计算机执行上述方法实施例的方法。
根据本申请的还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方法实施例的方法。
换言之,当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,该模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。另外,各个方法实施例之间、各个装置实施例之间也可以互相参考,在不同实施例中的相同或对应内容可以互相引用,不做赘述。

Claims (15)

1.一种长文本分类方法,其特征在于,包括:
将获取的目标长文本划分成N个序列后输入目标模型中,分别得到所述N个序列的文本表示,所述N为正整数;
对所述N个序列的文本表示进行融合,得到所述目标长文本的篇章表示;
根据所述目标长文本的篇章表示,得到所述目标长文本的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述目标模型包括融合模块,所述对所述N个序列的文本表示进行融合,得到所述目标长文本的篇章表示,包括:
将所述N个序列的文本表示进行合并,得到合并矩阵;
将所述合并矩阵输入所述融合模块,得到所述融合模块输出的目标长文本的篇章表示。
3.根据权利要求2所述的方法,其特征在于,所述融合模块包括线性变换层和融合层,所述将所述合并矩阵输入所述融合模块,得到所述融合模块输出的目标长文本的篇章表示,包括:
将所述合并矩阵输入所述线性变换层,分别经过第一权重矩阵、第二权重矩阵和第三权重矩阵的线性变换,得到第一矩阵、第二矩阵和第三矩阵;
将所述第一矩阵、第二矩阵和第三矩阵输入所述融合层,得到所述目标长文本的篇章表示。
4.根据权利要求3所述的方法,其特征在于,所述融合层包括融合单元和归一化单元,所述将所述第一矩阵、第二矩阵和第三矩阵输入所述融合层,得到所述目标长文本的篇章表示,包括:
将所述第一矩阵和第二矩阵输入所述融合单元,确定所述第二矩阵的转置与所述第一矩阵相乘后与标度的比值,所述标度与所述序列的输出维度相关;
将所述比值输入所述归一化单元,得到所述N个序列的文本表示的权重;
将所述N个序列的文本表示的权重和所述第三矩阵相乘,得到所述目标长文本的篇章表示。
5.根据权利要求4所述的方法,其特征在于,所述归一化单元包括softmax激活函数。
6.根据权利要求2所述的方法,其特征在于,所述目标模型还包括全连接层,所述根据所述目标长文本的篇章表示,得到所述目标长文本的分类结果,包括:
将所述目标长文本的篇章表示输入所述全连接层,得到M个标签的预测概率,所述M为正整数;
根据所述M个标签的预测概率,得到所述目标长文本的分类结果。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述将获取的目标长文本输入目标模型中,得到N个序列的文本表示,包括:
通过预设的窗口长度和窗口滑动步长,将所述目标长文本划分成N个序列;
针对所述N个序列中的每一个序列,将所述序列输入所述目标模型中,得到所述序列的文本表示。
8.根据权利要求7所述的方法,其特征在于,所述窗口滑动步长小于所述窗口长度。
9.根据权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:
针对训练数据集中未标注的第i篇文本,将所述第i篇文本输入经过Q轮训练后的目标模型中,确定所述第i篇文本关于P个分类的概率,所述Q、P均为正整数;
根据所述第i篇文本关于所述P个分类的概率,确定所述第i篇文本的不确定性得分;
若所述第i篇文本的不确定性得分大于预设值时,则对所述第i篇文本进行标注;
使用标注后的所述第i篇文本对所述目标模型进行训练。
10.根据权利要求9所述的方法,其特征在于,若所述目标模型用于单标签分类任务,则所述根据所述第i篇文本关于所述P个分类的概率,确定所述第i篇文本的不确定性得分,包括:
针对所述P个分类中的每一个分类,将所述分类的概率与所述分类的概率对数进行相乘,得到所述分类对应的乘积,并将所述P个分类中所有分类对应的乘积进行相加,得到第一和值;
将所述第一和值的负数,确定为所述第i篇文本的不确定性得分。
11.根据权利要求9所述的方法,其特征在于,若所述目标模型用于多标签分类任务,则所述根据所述第i篇文本关于所述P个分类的概率,确定所述第i篇文本的不确定性得分,包括:
针对所述P个分类中的每一个分类,将所述分类的概率与所述分类的概率对数进行相乘,得到所述分类的第一乘积;
确定一与所述分类的概率之间的第一差值,以及一与所述分类的概率对数之间的第二差值,并将所述第一差值与所述第二差值进行相乘,得到所述分类的第二乘积;
将所述第一乘积的负数与所述第二乘积的差值,确定为所述第i篇文本关于所述分类的不确定性得分。
12.根据权利要求9所述的方法,其特征在于,若所述第i篇文本为长文本时,则所述将所述第i篇文本输入经过Q轮训练后的目标模型中,确定所述第i篇文本关于P个分类的概率,包括:
将所述第i篇文本划分成K个序列后输入所述目标模型中,分别得到所述K个序列的文本表示,所述K为正整数;
对所述K个序列的文本表示进行融合,得到所述第i篇文本的篇章表示;
根据所述第i篇文本的篇章表示,得到所述第i篇文本关于P个分类的概率。
13.一种长文本分类装置,其特征在于,包括:
确定单元,用于将获取的目标长文本划分成N个序列后输入目标模型中,分别得到所述N个序列的文本表示,所述N为正整数;
融合单元,用于对所述N个序列的文本表示进行融合,得到所述目标长文本的篇章表示;
分类单元,用于根据所述目标长文本的篇章表示,得到所述目标长文本的分类结果。
14.一种计算设备,其特征在于,包括:处理器和存储器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序以实现如权利要求1至12任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述存储介质包括计算机指令,当所述指令被计算机执行时,使得所述计算机实现如权利要求1至12任一项所述的方法。
CN202111619122.5A 2021-12-27 2021-12-27 长文本分类方法、装置、设备及存储介质 Pending CN114281996A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111619122.5A CN114281996A (zh) 2021-12-27 2021-12-27 长文本分类方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111619122.5A CN114281996A (zh) 2021-12-27 2021-12-27 长文本分类方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114281996A true CN114281996A (zh) 2022-04-05

Family

ID=80876587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111619122.5A Pending CN114281996A (zh) 2021-12-27 2021-12-27 长文本分类方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114281996A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114743012A (zh) * 2022-04-08 2022-07-12 北京金堤科技有限公司 一种文本识别方法及装置
CN115249015A (zh) * 2022-09-21 2022-10-28 中科雨辰科技有限公司 基于篇章聚类和语句融合的标注一致性检验方法及介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114743012A (zh) * 2022-04-08 2022-07-12 北京金堤科技有限公司 一种文本识别方法及装置
CN114743012B (zh) * 2022-04-08 2024-02-06 北京金堤科技有限公司 一种文本识别方法及装置
CN115249015A (zh) * 2022-09-21 2022-10-28 中科雨辰科技有限公司 基于篇章聚类和语句融合的标注一致性检验方法及介质

Similar Documents

Publication Publication Date Title
CN110598206B (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN111695352A (zh) 基于语义分析的评分方法、装置、终端设备及存储介质
WO2019153737A1 (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN112613308B (zh) 用户意图识别方法、装置、终端设备及存储介质
CN111967264B (zh) 一种命名实体识别方法
CN111599340A (zh) 一种多音字读音预测方法、装置及计算机可读存储介质
CN113158687B (zh) 语义的消歧方法及装置、存储介质、电子装置
CN114281996A (zh) 长文本分类方法、装置、设备及存储介质
CN112417855A (zh) 文本意图识别方法、装置以及相关设备
CN112667782A (zh) 一种文本分类方法、装置、设备及存储介质
CN111339775A (zh) 命名实体识别方法、装置、终端设备及存储介质
CN112487827A (zh) 问题回答方法及电子设备、存储装置
CN112101042A (zh) 文本情绪识别方法、装置、终端设备和存储介质
CN115146068B (zh) 关系三元组的抽取方法、装置、设备及存储介质
CN113591490A (zh) 信息处理方法、装置和电子设备
CN112527967A (zh) 文本匹配方法、装置、终端和存储介质
CN111414755A (zh) 一种基于细粒度情感字典的网络情绪分析方法
CN115292492A (zh) 意图分类模型的训练方法、装置、设备及存储介质
CN116306679A (zh) 一种基于语义可配置的多模态智能客服对话的方法和系统
CN110347813B (zh) 一种语料处理方法、装置、存储介质及电子设备
CN115146033A (zh) 命名实体识别方法及装置
CN114722832A (zh) 一种摘要提取方法、装置、设备以及存储介质
CN114328894A (zh) 文档处理方法、装置、电子设备及介质
CN113869068A (zh) 场景服务推荐方法、装置、设备及存储介质
CN113705194A (zh) 简称抽取方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination