CN111881292A - 一种文本分类方法及装置 - Google Patents

一种文本分类方法及装置 Download PDF

Info

Publication number
CN111881292A
CN111881292A CN202010622062.1A CN202010622062A CN111881292A CN 111881292 A CN111881292 A CN 111881292A CN 202010622062 A CN202010622062 A CN 202010622062A CN 111881292 A CN111881292 A CN 111881292A
Authority
CN
China
Prior art keywords
text
classified
training
determining
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010622062.1A
Other languages
English (en)
Other versions
CN111881292B (zh
Inventor
赵瑞辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010622062.1A priority Critical patent/CN111881292B/zh
Publication of CN111881292A publication Critical patent/CN111881292A/zh
Application granted granted Critical
Publication of CN111881292B publication Critical patent/CN111881292B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种文本分类方法及装置,涉及自然语言处理技术领域,方法包括:获取待分类文本,确定所述待分类文本中包括的多层级文本信息;通过编码器确定每个层级文本信息的重要度,并根据所有层级文本信息的重要度确定待分类文本的目标特征;通过分类器确定所述目标特征对应的分类结果,其中所述分类器与所述编码器是通过预训练编码器以及待训练分类器联合训练得到的,所述预训练编码器是通过将训练样本生成所述训练样本的训练过程训练得到的。确定不同粒度的待分类文本特征,从而得到更准确的目标特征,通过对更准确的目标特征进行分类,能够得到更准确的分类结果。

Description

一种文本分类方法及装置
技术领域
本发明实施例涉及自然语言处理技术领域,尤其涉及一种文本分类方法及装置。
背景技术
随着互联网在全球范围内的快速发展,人们面临的信息呈指数增加。在人们所面临的信息中有大量的文本信息,因此,对文本信息的处理技术尤为重要。其中,对文本信息进行分类是组织和管理文本信息的一个有效手段,将文本信息进行分类可以方便人们对文本信息的浏览、查找和使用。
传统分类方法通常是通过人工标注的方法对文本进行分类,但是文本分类的效率低,不能满足海量文本数据的分类要求;随着机器学习的发展,提出了一些基于深度神经网络模型的文本分类方法,但是现有技术中的文本分类模型体量大,需要海量的训练数据和参数,导致现有技术中文本分类方法的分类效果不理想。
发明内容
本申请实施例提供一种文本分类方法及装置,用以能够根据待分类文本中包括的多层级文本信息的重要度,确定待分类文本的准确全面的目标特征,并根据目标特征确定待分类文本的。
一方面,本申请实施例提供一种文本分类方法,方法包括:
获取待分类文本,确定所述待分类文本中包括的多层级文本信息;
通过编码器确定每个层级文本信息的重要度,并根据所有层级文本信息的重要度确定待分类文本的目标特征;
通过分类器确定所述目标特征对应的分类结果,其中所述分类器与所述编码器是通过预训练编码器以及待训练分类器联合训练得到的,所述预训练编码器是通过将训练样本生成所述训练样本的训练过程训练得到的。
一方面,本申请实施例提供一种文本分类装置,包括:
多层级文本信息获取单元,用于确定所述待分类文本中包括的多层级文本信息;
目标特征确定单元,用于通过编码器确定每个层级文本信息的重要度,并根据所有层级文本信息的重要度确定待分类文本的目标特征;
分类单元,用于通过分类器确定所述目标特征对应的分类结果,其中所述分类器与所述编码器是通过预训练编码器以及待训练分类器联合训练得到的,所述预训练编码器是通过将训练样本生成所述训练样本的训练过程训练得到的。
可选的,装置还包括:
训练单元,获取第一训练样本,第一训练样本中包括第一分类文本,第一分类文本至少由多层级第一训练文本信息构成;
根据第一分类文本对待训练编码器进行迭代训练,直至迭代终止时,得到预训练编码器;
其中每次迭代训练过程中,将第一分类文本输入至待训练编码器,通过待训练编码器确定第一分类文本中每个层级第一训练文本信息的重要度,并根据所有层级第一训练文本信息的重要度确定第一分类文本的第一目标特征;
将第一目标特征输入至待训练解码器中,通过待训练的解码器输出第一输出结果,根据第一输出结果与第一分类文本自身确定第一损失函数,并通过第一损失函数调整待训练编码单元以及待训练解码单元的模型参数。
可选的,训练单元具体用于:
获取第二训练样本,第二训练样本中包括第二分类文本以及第二分类文本的真实分类结果,第二分类文本包括多层级第二训练文本信息,第二分类文本与待分类文本具有相同的属性特征;
根据第二分类文本对预训练编码器以及待训练分类器进行迭代训练,直至迭代终止时,得到编码器以及分类器;
其中每次迭代训练过程中,将第二分类文本输入至预训练编码器中,通过预训练编码器确定第二分类文本中每个层级第二训练文本信息的重要度,并根据所有层级第二训练文本信息的重要度确定第二分类文本的第二目标特征;
将第二目标特征输入至待训练分类器中,得到第三输出结果,根据第三输出结果与第二分类文本的真实分类结果确定第二损失函数,并根据第二损失函数调整预训练编码器以及待训练分类器的模型参数。
可选的,第二分类文本为医学病例文本,医学病例文本至少由多个病例短句构成。
一方面,本申请实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行计算机程序时实现上述文本分类方法的步骤。
一方面,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当程序在计算机设备上运行时,使得计算机设备执行上述文本分类方法的步骤。
本申请实施例提供的文本分类方法,能够首先确定待分类文本中包括的多层级文本信息,这些文本信息在待分类文本中具有不同的重要度,所以确定多层级文本信息的重要度,直接影响了对待分类文本的文本信息解析结果。
所以在本申请中,通过基于神经网络的编码器来确定各层级文本信息的重要度并基于各层级文本信息的重要度来确定待分类文本的目标特征。由于编码器是通过预训练编码器以及待训练分类器联合训练得到的,而预训练编码器是通过将训练样本生成训练样本的训练过程训练得到的,所以编码器能够在训练过程中学习到训练文本中不同粒度的编码特征,在对待分类文本进行特征提取时,也能够确定不同粒度的特征,从而得到更准确的目标特征,通过对更准确的目标特征进行分类,能够得到更准确的分类结果。
进一步地,由于本申请中的已训练编码器是根据自编码技术预训练的,并且与分类器一起进行微调训练完成,所以在本申请中,在训练阶段,不需要进行特定领域的大规模标注,就可以利用训练文本进行预训练,整体提高了训练效率,由于提高了训练效率,所以也进一步提高了整个文本分类方的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种文本分类方法的应用场景示意图;
图2为本申请实施例提供的一种文本分类方法的流程示意图;
图3为本申请实施例提供的一种GRU结构示意图;
图4为本申请实施例提供的一种确定待分类文本的目标特征向量的方法示意图;
图5为本申请实施例提供的一种编码器训练流程示意图;
图6为本申请实施例提供的一种编码器训练流程示意图;
图7为本申请实施例提供的一种编码器训练流程示意图;
图8为本申请实施例提供的一种文本分类方法的应用场景示意图;
图9为本申请实施例提供的一种文本分类装置的结构示意图;
图10为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了方便理解,下面对本申请实施例中涉及的名词进行解释:
人工智能:是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。也是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。
自然语言处理:也称为NLP(Natural Language Processing),是人工智能中的一个子领域。它研究用计算机来处理、理解以及运用人类语言(如中文、英文等),达到人与计算机之间进行有效通讯。所谓“自然”乃是寓意自然进化形成,是为了区分一些人造语言,类似C++、Java等人为设计的语言。
机器学习(MachineLearning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
深度学习(DL,Deep Learning):是机器学习领域中一个新的研究方向,深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。
编码器:将一个可变长度的信号序列变为固定长度的向量表达,即可以将待分类文本变为固定长度的向量,编码器用于提取数据中的深层次的特征,也就会说,编码器能够提取待分类文本的深层次特征。
解码器:将固定长度的向量变成可变长度的目标的信号序列,即将固定长度的向量变为长度可变的文本。
注意力机制:注意力机制的本质来自于人类视觉注意力机制。人们视觉在感知东西的时候一般不会是一个场景从到头看到尾每次全部都看,而往往是根据需求观察注意特定的一部分。而且当人们发现一个场景经常在某部分出现自己想观察的东西时,人们会进行学习在将来再出现类似场景时把注意力放到该部分上。在本申请中,可以通过注意力机制确定待分类文本中的各个词或者句子对待分类文本对应的特征向量的影响程度。
自编码技术:一种在半监督学习和非监督学习中使用的人工神经网络,其功能是通过将输入信息作为学习目标,对输入信息进行表征学习,具体的,可以通过自编码技术将输入信息转换为与输入信息相同的输出信息,从而能够学习输入信息中不同粒度的特征。
LSTM(Long Short-Term Memory):长短时记忆模型,是自然语言处理模型的一种,也是RNN(Recurrent Neural Network,循环神经网络)模型的一种变形。LSTM可以学习长的依赖关系,它对传统RNN的隐层进行了结构上的改进,适合用于对时序数据的处理,如文本数据。
GRU(Gate Recurrent Unit):是门控单元的简称,门控单元是长短时记忆模型LSTM网络的一种变体,它较长短时记忆模型LSTM网络的结构更加简单,仅有更新门和重置门的结构。
预训练技术:通过设计好一个网络结构来做语言模型任务,然后把大量甚至是无穷尽的无标注的自然语言文本利用起来;预训练任务把大量语言学知识抽取出来编码到网络结构中,当训练任务带有的标注信息数据有限时,这些先验的语言学特征当然会对训练任务有极大的特征补充作用。
BERT(Bidirectional Encoder Representations from Transformers):表示的是一种基于转换器的双向编码,基于转换器的双向编码BERT是一种预训练技术,基于转换器的双向编码BERT的网络架构使用的是多层机器翻译模型Transformer结构,每个机器翻译模型Transformer结构包括编码器以及解码器,其最大的特点是抛弃了传统的循环神经网络RNN和卷积神经网络CNN,通过注意力机制将任意位置的两个单词的距离转换成1,有效的解决了自然语言处理中长期依赖的问题。
在具体实践过程中,本申请的发明人发现,在确定对待分类文本进行分类的过程中,通常会使用传统文本分类方法。基于自有业务数据集合小模型,如使用卷积神经网络模型CNN、长短时记忆模型LSTM、门控单元GRU、朴素贝叶斯模型、提升树可扩展的机器学习系统XGBOOST等。传统的文本分类模型无法很好地关注待分类文本的重点或者缺少与训练技术带来的额外信息,因而对待分类文本没有很好的分类能力。
基于现有技术中的问题,本申请的发明人首先发明了一种基于预训练方法的文本分类方法。近年来,预训练为自然语言处理领域带来了新的思路,采取预训练来处理自然语言处理相关任务的主要原因有两方面。其一,针对自然语言处理领域的关键问题,即如何能够更有效地对文本做特征提取以便更好地表达语义,相比很多传统做法,预训练可以更好地解决这一问题,并提升解决下游任务的性能。如果在下游任务中能够加入微调过程,能够更多地提升自然语言处理任务的性能。其二,预训练的方法促进了深度学习算法更好地融入到自然语言处理领域内,同时,预训练方法在计算机视觉领域内取得了非常好的效果,其原理对自然语言处理相关任务也有很好的启发作用。
本申请的发明人基于预训练的分类方法,如基于转换器的双向编码BERT对待分类文本进行分类,实验证明,基于预训练的分类方法,远远超过传统分类方法的分类效果。
但是本申请的发明人发现,基于转换器的双向编码BERT对待分类文本进行分类的方法的缺点也很明显,例如基于转换器的双向编码BERT在预训练过程中用到了占位符,真正预测时却没有这个占位符,所以会造成训练过程和使用过程的不一致性;进一步地的,由于基于转换器的双向编码BERT在具有多层机器翻译模型Transformer结构,所以预训练时间开销过大,在一个新的领域,如医疗文本,需要大量时间进行预训练;并且基于转换器的双向编码BERT的提出是为了解决短句的分类能力,针对长句子分类能力较差。
针对以上文本分类方法的缺点,本申请的发明人进一步发明了一种文本分类方法,在本申请中,首先确定待分类文本中包括的多层级文本信息,也就是说,从多层级的角度,更好的理解待分类文本的语义特征,然后通过编码器确定每个层级文本信息的重要度,并根据所有层级文本信息的重要度确定待分类文本的目标特征;也就是说通过确定待分类文本中各层级文本信息,这些层级文本信息反映了待分离文本的层次结构,同时针对每个层级文本信息,都使用编码器确定了该层级文本信息的重要度,能够在提取待分类文本的目标特征时,能够参考不同层级文本信息的重要部分,所以能够得到更加准确全面的目标特征。
进一步地,由于本申请中的已训练编码器是根据自编码技术预训练的,并且与分类器一起进行微调训练完成,所以在本申请中,在训练阶段,不需要进行特定领域的大规模标注,就可以利用训练文本进行预训练,整体提高了训练效率,由于提高了训练效率,所以也进一步提高了整个文本分类方的效率。
在介绍完本申请实施例的设计思想之后,下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时,可以根据实际需要灵活地应用本申请实施例提供的技术方案。
为进一步说明本申请实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本申请实施例提供的执行顺序。
为了解决现有技术中文本分类方法存在的问题,本发明提供了一种文本分类方法。参考图1,其为本申请实施例适用的一种系统架构图,该系统架构至少包括M个终端设备101以及服务器102,M个终端设备101即图1中所示的终端设备101~1至终端设备101~M,M为正整数,M的值本申请实施例并不进行限制。
终端设备101中安装有客户端,该客户端由服务器102提供文本分类服务。终端设备101中的客户端可以是浏览器客户端、视频应用客户端等。终端设备101中的客户端是各应用的客户端,即可以通过终端设备101运行各应用,并通过各应用将服务器102确定的文本分类结果显示给目标用户。
终端设备101可以包括一个或多个处理器1011、存储器1012、与服务器102交互的I/O接口1013以及显示面板1014等。终端设备101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。
服务器102为提供文本处理能力的终端设备,服务器102根据终端设备101上传的待分类文本,确定待分类文本的分类结果,服务器102可以包括一个或多个处理器1021、存储器1022以及与终端设备101交互的I/O接口1023等。此外,服务器102还可以配置数据库1024。服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备101与服务器102可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
用户可以通过终端设备101内安装的客户端来访问服务器102,从而能够接收服务器102确定的文本分类结果。例如,该终端设备101可以通过文本分类应用客户端来访问服务器102,还可以通过浏览器客户端中文本分类应用来访问服务器102确定待分类文本中包括的多层级文本信息,通过编码器确定每个层级文本信息的重要度,并根据所有层级文本信息的重要度确定待分类文本的目标特征,通过分类器确定目标特征对应的分类结果。
服务器102确定了分类结果后,将分类结果发送给终端设备101,并显示在终端设备101的客户端中。
示例性的,用户为医生,终端设备101为医生在医院中使用的电子设备,医生在终端设备101的病例文本分类应用中,选择了多个病例文本,在触发对多个病例文本的分类请求后,终端设备101将各病例文本上传至服务器102,服务器102确定各病例文本中包括的多层级文本信息,通过编码器确定每个层级文本信息的重要度,并根据所有层级文本信息的重要度确定待分类文本的目标特征,通过分类器确定目标特征对应的分类结果,分类结果可以是对于病例文本的病情判断,并将每个病例文本的分类结果发送给终端设备101,终端设备101将各病例文本的分类结果显示给医生。
当然,本申请实施例提供的方法并不限用于图1所示的应用场景中,还可以用于其它可能的应用场景,本申请实施例并不进行限制。对于图1所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述,在此先不过多赘述。
为进一步说明本申请实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本申请实施例提供的执行顺序。
下面结合图1所示的应用场景,对本申请实施例提供的技术方案进行说明。
参考图2,本申请实施例提供一种文本分类方法,包括:
步骤S201,获取待分类文本,确定所述待分类文本中包括的多层级文本信息。
在本申请中,获取的待分类文本可以是用户输入后得到的,也可以是从网络中爬取的,在此不限定待分类文本的获取方法。
待分类文本的长度也不做限定,可以为长文本,即由多个词语构成的待分类文本,也可以是短文本,由设定个数个词语构成的待分类文本。
示例性的,待分类文本为长文本,该长文中包括多个短句,每个短句中包括多个词语,例如,待分类文本为“患儿今日于全麻下给予气灌肠术,术程顺利,术中见小肠通气,肠套叠解套。术后患儿安返病房,给予静点抗炎及补液治疗,同时监测生命体征。外科值班医师查房意见:患儿经气灌肠术后目前肠套叠已复位,可给予目前治疗,同时胃管注入碳粉后观察患儿排便情况,继观患儿病情变化。”。
上述待分类文本中,包括13个短句,每个短句中包括多个词语。
由于待分类文本中包括的信息内容较多,所以为了更好的理解待分类文本的语义信息,需要确定待分类文本中各层级文本信息。
待分类文本中的各层级文本信息指的是构成待分类文本的多层级的文本信息,例如,待分类文本由词语构成,多个词语为一个层级的文本信息,其它词语为另一个层级的文本信息;或者待分类文本由多个短句构成,每个短句又由多个词语构成,所以多个短句作为一个层级的文本信息,将每个短句包括的多个词语也作为一个层级的文本信息。
在本申请实施例中,对待分类文本分级的方法有多种,一种可选的实施例中,根据待分类文本中的各词语的词性进行划分,得到多层级的文本信息。
示例性的,获取的待分类文本为“今天天气真好,我们出去玩吧。”,一种可选的实施例中,待分类文本中包括多个层级文本信息,具体的,第一层级文本信息为“今天”,“天气”,“我们”;第二层级文本信息为“真”;第三层级为“好”;第四层级为“出去”、“玩”;第五层级为“吧”。
另一种可选的实施例中,根据待分类文本中的词语的数量进行分类,词语的数量越多,可以划分为较多的层级;词语的数量越小,可以划分为较少的层级。
示例性的,待分类文本中包括10个词语,按照设定的词语与划分层级的对应关系,能够确定10个词语对应的划分层级为2级,则可以按照各词语的排列顺序将待分类文本划分为2级,每个层级包括5个词语。
还有一种可选的实施例,根据待分类文本的标点符号进行层级划分,待分类文本中具有多少标点符号信息,则将待分类文本划分为多少层级。示例性的,待分类文本为“今天天气真好,我们出去玩吧。”确定待分类文本中包括2个标点符号,则将待分类文本划分为多个层级文本,第一层级文本为“今天天气真好”、第二层级文本为“我们出去玩吧”。
还有一种可选的实施例中,可以将待分类文本划分为短句层级以及词语层级,即待分类文本由各短句构成,每个短句又是由各词语构成。
示例性的,待分类文本为“患儿今日于全麻下给予气灌肠术,术程顺利,术中见小肠通气,肠套叠解套。”构成待分类文本的短句为“患儿今日于全麻下给予气灌肠术”、“术程顺利”、“术中见小肠通气”、“肠套叠解套”,上述各短句的文本信息为待分类文本的各短语层级文本信息;针对上述每个短语层级文本信息包括的词语,为该短语层级文本信息的词语层级文本信息,例如“肠套叠解套”短句层级文本信息中包括的“肠”、“套”、“叠”、“解”、“套”为词语层级文本信息。
进一步地,上述的词语层级文本信息还有其它确定方式,例如,可以将各短句层级文本信息进行分词,将各分词的词语作为词语层级文本信息。
示例性的,短句层级文本信息“患儿今日于全麻下给予气灌肠术”的分词结果为“患儿/今日/于/全麻/下/给予/气灌肠术”,则“患儿”、“今日”、“于”、“全麻”、“下”、“给予”、“气灌肠术”作为词语层级文本信息。
当然,上述只是示例性的确定待分类文本不同层级文本信息的方法,还有其它确定待分类文本不同层级文本信息的方法,在此不做赘述。
步骤S202,通过编码器确定每个层级文本信息的重要度,并根据所有层级文本信息的重要度确定待分类文本的目标特征。
在本申请中,编码器是能够将待分类文本从可变长度转换为固定长度的向量,所以通过编码器可以确定待分类文本的向量,该向量能够表征待分类文本的全部特征。
具体的,在本申请实施例中,由于将待分类文本划分为多个层级的文本信息,所以在确定待分类文本的特征时,需要确定每个层级的文本信息中的特征,综合所有层级文本信息的特征,就可以得到待分类文本的全部特征。
在本申请中,每个层级的文本信息的特征可以用每个层级的文本信息的向量进行表征,所以在本申请实施例中,在获取到待分类文本后,将待分类文本进行向量化。
为了实现将待分类文本向量化的过程,一种可选的实施例中,将各短句层级文本信息中包括的各词语转换为词语向量。例如待分类文本为“今天天气真好,我们出去玩吧。”将“今”、“天”、“天”、“气”、“真”、“好”、“我”、“们”、“出”、“去”、“玩”、“吧”转换为各词语向量。
另一种可选的实施例中,可以将待分类文本中的各标点去除,然后进行分词。示例性的,获取的待分类文本为“今天天气真好,我们出去玩吧。”,则首先将获取的待分类文本去除标点,得到的文本为“今天天气真好我们出去玩吧”,然后对去除标点后的文本进行分词。
在本申请中,分词的方式有多种,例如通过词性进行分词,或者通过分词系统进行分词,示例性的为结巴分词系统,具体的分词方法不做限制。示例性的,上述待分类文本为“今天天气真好,我们出去玩吧。”的分词结果为“今天/天气/真/好/我们/出去/玩/吧”。
同样的,在对待分类文本进行层级化划分后,可以针对每个短句层级的文本信息进行分词,例如待分类文本为“患儿今日于全麻下给予气灌肠术,术程顺利,术中见小肠通气,肠套叠解套。”构成待分类文本的短句为“患儿今日于全麻下给予气灌肠术”、“术程顺利”、“术中见小肠通气”、“肠套叠解套”,然后对“患儿今日于全麻下给予气灌肠术”、“术程顺利”、“术中见小肠通气”、“肠套叠解套”各短句层级文本信息进行分词,示例性的,将“患儿今日于全麻下给予气灌肠术”分词为“患儿/今日/于/全麻/下/给予/气灌肠术”。
在本发明实施例中,可以通过词语的向量化处理过程,得到各词语向量。
词语向量处理技术将自然语言中的词转化为稠密的向量,相似的词会有相似的向量表示,这样的转化方便挖掘文字中词语和句子之间的特征。
词语向量处理方法有多种,一种可选的实施例中,可以通过独热码One-hot编码的方式,将各词语转换为对应的词语向量。独热码One-hot编码首先确定短句层级文本信息中词语数量,然后根据词语数量确定每个编码的字符数量,每个编码中包括1以及0,即独热码One-hot编码是二进制编码;每个词语按照在短句层级文本信息中的位置,确定二进制编码中1字符的位置。
示例性的,短句层级文本信息中的各词语为“我”、“和”、“你”,由于词语的数量为3,所以每个编码的字符数量为3,“我”对应的二进制编码为100,“和”对应的二进制编码为010,“你”对应的二进制编码为001。
另一种可选的实施例中,可以使用词语向量计算工具word2vec确定各词语的词语向量。
词语向量计算工具word2vec是用一个一层的神经网络把独热码one-hot编码形式的稀疏词语向量映射称为一个n维的稠密向量的过程。
词语向量计算工具word2vec中有两种神经网络模型,一种为连续词袋模型CBOW,另一种为跳字模型Skip-Gram;连续词袋模型CBOW针对任一词语前面的C个词语或者后C个连续的词来确定该词语的词语向量。
跳字模型Skip-Gram针对任一词语,将该词语作为目标词语,然后确定该目标词语的上下文单词的词语向量。
当然,上述只是示例性的确定各词语向量的方式,还有其它确定词语向量的方式,在本申请实施例中不做赘述。
在本申请实施例中,在将各词语转换为词语向量后,通过各词量确定每个层级文本信息的重要度,并根据所有层级文本信息的重要度确定待分类文本的目标特征。
一种可选的实施例中,编码器基于注意力机制确定每个短句层级文本信息中,每个词语文本信息的第一重要度,以及确定所述待分类文本中每个短句层级文本信息的第二重要度。
注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,也就是一般所说的注意力焦点,而后对这一区域投入更多注意力资源,以获取更多所需要关注目标的细节信息,而抑制其他无用信息。深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似,核心目标也是从众多信息中选择出对当前任务目标更关键的信息。注意力被成功地应用到许多任务中,因为它能够自动捕捉输入之间的复杂相关性。
在本申请中,把输入的各向量X(词语向量或者短句向量)看做是一个信息存储器,现在给定一个查询向量q,用来查找并选择X中的某些信息,定义一个注意力变量z∈[1,N]来表示被选择信息的索引位置,即z=i来表示选择了第i个输入信息,然后计算在给定了q和X的情况下,选择第i个输入信息的概率αi,这个概率就是第i各输入向量的注意力概率,具体如公式1所示:
Figure BDA0002563356730000151
在公式1中,xi表示的是第i个输入信息,softmax表示归一化处理。
在本申请实施例中,通过注意力机制来确定各层级文本信息的重要度,具体使用的注意力机制的方法有多种,一种可选的实施例中,可以通过注意力机制模型确定各层级文本信息的重要度,即将各词语向量输入至注意力机制模型中,得到各词语对应的各重要度,将各短句向量输入至注意力机制模型中,得到各短句对应的各重要度;另一种可选的实施例中,还可以通过点乘、全连接层dense layer或者矩阵的方法,确定各词语或者各短句的重要度。
在介绍了注意力机制后,在本申请实施例中,通过确定的第一重要度以及第二重要度,能够得知各词语以及各短句对待分类文本的重要性,然后基于重要意义的各词语以及各短句,才能得到更全面的待分类文本的目标特征。
示例性的,待分类文本为“患儿今日于全麻下给予气灌肠术”,对于医学领域,待分类文本中的具有重要意义的特征应该是“全麻”、“气灌肠术”这些特征,所以还需要确定待分类文本中的各词语的重要程度特征。
具体的,一种可选的实施例中,可以首先确定词语层级文本信息的重要度,然后基于词语层级文本信息的重要度确定各短句的向量,然后通过再确定各段矩形向量的重要度。
示例性的,待分类文本包括“患儿今日于全麻下给予气灌肠术,术程顺利,术中见小肠通气,肠套叠解套。术后患儿安返病房,给予静点抗炎及补液治疗,同时监测生命体征。”。
通过注意力机制,确定每个词语对对应的短句的重要程度特征,即确定“患儿今日于全麻下给予气灌肠术”、“术程顺利”、“术中见小肠通气”、“肠套叠解套”、“术后患儿安返病房”、“给予静点抗炎及补液治疗”、“同时监测生命体征”中每个词语的重要性特征,再确定这些短句对待分类文本的重要性特征。
例如,确定每个词语对对应的短句的重要程度特征,确定的结果为“患儿今日于全麻下给予气灌肠术”中重要的词语为“全麻”、“气灌肠术”;“术程顺利”中重要的词语为“顺利”;“术中见小肠通气”中重要的词语为“小肠”、“通气”;“肠套叠解套”中重要的词语为“解套”;“术后患儿安返病房”中重要的词语为“安”;“给予静点抗炎及补液治疗”中重要的词语为“抗炎”、“补液”;“同时监测生命体征”中重要的词语为“监测”。
通过各词语对对应的各短句的重要程度,确定各第一重要度特征,这个特征就是短句特征,然后确定短句特征对待分类文本的重要度特征。上述示例,通过“全麻”、“气灌肠术”确定“患儿今日于全麻下给予气灌肠术”的特征,然后根据“患儿今日于全麻下给予气灌肠术”的特征,以及“患儿今日于全麻下给予气灌肠术”对待分类文本“患儿今日于全麻下给予气灌肠术,术程顺利,术中见小肠通气,肠套叠解套。术后患儿安返病房,给予静点抗炎及补液治疗,同时监测生命体征”的重要度特征,以及其它短句对待分类文本的重要度特征,确定待分类文本的特征向量。
在引入注意力机制后,可以获取需要重点关注的重要词语,而忽视其他无关信息,从而能够编码为更理想的编码向量。
一种可选的实施例中,针对任一短句层级文本信息中的词语,确定该词语对应的词语向量,并基于注意力机制确定每个词语向量的重要度,将属于同一短句层级文本信息中的词语对应的词语向量以及对应的重要度相乘,得到各词语特征,将属于同一短句层级文本信息中的所有词语的词语特征进行相加,得到该短句层级文本信息对应的短句特征向量。
示例性的,短句层级文本信息中的词语有A、B、C,将词语A、B、C转换为词语向量,分别为a,b,c,针对a,确定的注意力概率为p1;针对b,确定的注意力概率为p2;针对c,确定的注意力概率为p3,则该短句层级文本信息对应的短句特征向量为a*p1+b*p2+c*p3。
进一步地,在本申请实施例中,由于针对任一短句层级文本信息中的词语,这些词语之间存在上下文关系,同样的,针对待分类文本,各短句层级文本信息之间也存在关联关系,所以在本申请实施例中,需要确定不同层级文本信息之间的关联度。
具体的,各词语向量与各前序词语向量之间具有上下文关联关系,例如,“我和你一起去医院”中“你”和“我”是具有关联关系的,在针对每个词语向量进行特征提取时,都需要参考前序词语向量对该词语向量的关联关系。
例如,在针对词语向量“你”进行特征提取时,确定“我”对“你”的关联关系以及“和”对“你”的关联关系。
所以在本申请中,确定每个词语向量与各前序词语向量之间的上下文关联特征,同样的,确定每个短句向量与各前序短句向量之间的上下文关联特征。
示例性进行解释,待分类文本信息中包括三个短句层级文本信息,分别为N、Q、M,M中包括三个词语,分别为m1、m2以及m3;针对m3对应的词语向量pm3,则确定pm3与m3前序的词语m1对应的向量pm1以及m2对应的向量pm2之间的关联度,同样的,针对M对应的向量PM,要确定PM与N、Q对应的向量PN、PQ之间的关联度。
当然,上述确定关联度的方式是确定各词语向量与前序词语向量之间的上下文关联特征,还可以确定各词语向量与其它词语向量之间的上下文关联特征,在此不做赘述。
在本申请实施例中,可以通过递归神经网络或者时序处理模型来确定上下文关联特征,例如可以使用门控单元GRU、双向门控单元Bi-GRU、长短时记忆模型LSTM、双向长短时记忆模型Bi-LSTM、机器翻译模型Transformer等模型方法确定上下文关联特征。
示例性的,为了解决长期记忆和反向传播中的梯度等问题,可以使用门控单元GRU确定上下文关联特征。门控单元GRU是长短时记忆模型LSTM的一个变体,门控单元GRU保持了长短时记忆模型LSTM的效果同时又使结构更加简单。门控单元GRU只剩下两个门,即更新门和重置门。更新门用于控制前一时刻的状态信息被代入到当前状态的程,更新门的值越大说明前一时刻的状态信息带入越多。重置门用于控制忽略前一时刻的状态信息的程度,重置门的值越小说明忽略得越多。
具体的门控单元GRU的结构如图3所示,在图3中,图中的zt和rt分别表示更新门和重置门。更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多。重置门控制前一状态有多少信息被写入到当前的候选集
Figure BDA0002563356730000181
上,重置门越小,前一状态的信息被写入的越少。
在本申请实施例中,针对第t个词语向量xt,通过更新门以及更新们控制ht-1写入当前状态的程度,ht-1为第t-1个词语向量xt-1的隐藏状态。
具体的,由于通过编码器首先将文本信息转换为向量,所以在本申请实施例中,通过编码器的门控GRU单元确定任一短句层级文本信息中的词语对应的各词语向量之间的关联度以及确定多个短句层级文本信息对应的多个短句向量之间的关联度。
在介绍了使用门控单元GRU确定上下文关联度特征后,可以结合上述介绍的注意力机制,确定待分类文本的目标特征向量。
具体的,针对任一词语向量,确定词语向量与其它词语向量之间的第一关联度,并根据第一关联度确定词语向量特征;根据注意力机制确定每个词语向量特征的第一重要度,并根据每个短句层级文本信息中,每个词语向量特征以及对应的第一重要度,确定每个短句层级文本信息的短句向量;针对任一短句向量,确定短句向量与其它短句向量之间的第二关联度,并根据第二关联度确定短句向量特征;通过注意力机制确定每个短句向量特征的第二重要度。
示例性的,在本申请实施例中,待分类文本中包括四个短句,分别为短句1、短句2、短句3以及短句4,短句1中包括词语1、词语2以及词语3,针对短句1中的各词语,基于门控单元GRU确定词语1向量与词语2向量以及词语3向量的词语1关联度。
同样的,基于门控单元GRU确定词语2向量与词语1向量以及词语3向量的词语2关联度,确定词语3向量与词语2向量以及词语1向量的词语3关联度。
通过词语1向量以及词语1关联度的乘积、词语2向量以及词语2关联度的乘积以及词语3向量以及词语3关联度的乘积之和,确定了短句1向量;基于同样的方式,确定了短句2向量以及短句3向量。
基于门控单元GRU确定了短句1向量与短句2向量以及短句3向量的短句1关联度,确定了短句2向量与短句1向量以及短句3向量的短句2关联度,确定了短句3向量与短句2向量以及短句1向量的短句3关联度。
通过短句1向量以及短句1关联度的乘积、短句2向量以及短句2关联度的乘积以及短句3向量以及短句3关联度的乘积之和,确定了目标特向量。
下面以具体实施例,介绍编码器结合层级注意力机制以及门控单元GRU确定待分类文本的目标特征向量的过程。
具体的,如图4所示,包括:
步骤S401,获取待分类文本;
步骤S402,对待分类文本进行切分,按照逗号将一句话分成多个短句,假设每个长句由M个短句构成,不足时以空缺补齐。使用结巴分词系统,将短句处理为独立的词语{x1,x2...xN};
步骤S403,将词语进行向量化处理,通过词嵌入技术,将每个词语映射成为对应的词语向量{w1,w2...wN},本申请实施例采用word2vec训练词语向量,每个词语向量300维,即N=300;
步骤S404,计算短句中的词语重要性权重,将同一短句的词语向量通过门控单元GRU,学习到各个词在原短句中的重要性权重{a1,a2...aN},通过权重调整短句中的各个词语向量,同时组合同一短句中的所有词,得到每个短句的矩阵化表示{s1,s2...sM},具体的处理过程如公式2~公式4所示:
Figure BDA0002563356730000201
Figure BDA0002563356730000202
Figure BDA0002563356730000203
其中,i=1,2,...N,j=1,2,...M,μ为超参数,该参数是通过训练编码器过程进行调节的。
步骤S405,计算长句中的短句重要性权重,将每个短句矩阵作为输入,通过另一个门控单元GRU,学习到每个短句在原长句中的重要性权重{b1,b2...bM},通过权重调整长句中的各个短句矩阵,同时组合同一长句中的所有短句,得到一个长句的矩阵化表示d,d就是待分类文本的目标特征向量,具体的过程如公式5~公式7所示:
hi=GRU(sj) 公式5
βi=Attention(hi,μ) 公式6
Figure BDA0002563356730000211
步骤S202,通过分类器确定所述目标特征对应的分类结果,其中所述分类器与所述编码器是通过预训练编码器以及待训练分类器联合训练得到的,所述预训练编码器是通过将训练样本生成所述训练样本的训练过程训练得到的。
具体的,在本申请中,通过编码器的编码能力,可以将更好的提取各词语向量的特征,并能够根据确定的各词语向量的特征,确定可以表征待分类文本的目标特征向量。
在本申请中,编码器是通过预训练编码器进一步微调训练得到的,而预训练编码器是根据自编码技术训练得到的。自编码技术利无监督的神经网络模型,训练得到编码能力更好的自编码器,所以已训练编码器的实质是一种自编码器。
自编码器是一种无监督的神经网络模型,它可以学习到输入数据的隐含特征,同时用学习到的新特征可以重构出原始输入数据。由于神经网络模型可以提取更有效的新特征,所以自编码器可以用于特征降维;进一步地,自编码器学习到的新特征可以送入有监督学习模型中,所以自动编码器可以起到特征提取器的作用。
所以在本发明实施例中,已训练编码器是通过无监督训练的方式,进行预训练,并通过有监督的学习过程,得到最终的已训练编码器。
具体的,预训练编码器包括两个部分,分别为编码器和解码器,通过编码器将训练样本中的文本转换为降维向量,并通过解码器将降维向量转换为文本。
示例性的,预训练编码器的训练过程如图5所示,获取训练样本,训练样本中包括多个待分类文本样本,针对每个待分类文本样本,将待分类文本样本输入到编码器中,通过编码器进行编码,得到编码向量,然后通过解码器将编码向量还原为待分类文本样本。
根据编码器还原的待分类文本样本以及输入至编码器中的待分类文本样本之间的差异性调整预训练编码器在训练过程中的模型参数。具体的,模型参数可以是编码器中神经网络的权重,以及解码器中神经网络的权重。
进一步具体的,如图6所示,在图6中,待分类文本为“我和你一起去医院”,将待分类文本中的各词转换为各词语向量,并将各词语向量依次输入至编码器中,编码器根据各词语向量确定了编码向量,并将编码向量输入至解码器中,解码器解码得到的结果为“我与你一同去医院”,所以通过“我和你一起去医院”以及“我与你一同去医院”之间的差异性,得到了预训练编码器。
在本申请实施例中,由于预训练编码器在训练过程中,学习到了待分类文本中最小粒度的词语的特征,所以能够更好的提取待分类文本的文本特征,并通过编码器编码过程以及解码器的解码过程,得到了能够确定全面表征待分类文本的预训练编码器。
在本申请实施例中,虽然在训练过程中还涉及到了解码器,但是在实际应用中,我们需要的只是预编码器,便于与待训练分类器联合训练得到编码器以及分类器。
在针对预编码器的训练过程中,可以使用不同技术领域中的训练样本,这些训练样本是由多层级文本信息构成,不需要对这些训练样本针对特定任务进行标注,所以在预编码器训练过程中,对训练样本的标注方式简单,也缩短了训练时间。
本申请实施例中,在通过已训练编码器确定了待分类文本的目标特征向量后,通过已训练分类器确定目标特征向量对应的分类结果。
一种可选的实施例中,分类器是根据分类的实际需求设置并训练得到的,例如,可以广泛应用于医疗领域资讯搜索引擎,医疗健康智能助手,医疗领域标签体系构建等场景,具体进行分类的处理。进一步具体的,可用于肿瘤医院根据电子病历医生描述中的指标,来判断检验检查的阴阳性。所以通过不同的分类任务,确定在分类器的训练过程中需要使用到的训练样本。
示例性的,在本申请实施例中,分类器应用于肿瘤病例分类,所以在本申请实施例中,分类器的训练过程中需要使用到的训练样本至少包括各电子病例,这些电子病例包括已经标注为肿瘤病例的电子病例,以及一些未标注为肿瘤病例的电子病例。
通过上述训练样本,就可以联合预训练编码在设定的肿瘤病例分类计数领域进行共同训练,共同训练过程中,调整预训练编码器以及待训练分类器的模型参数,在训练迭代终止时,得到编码器以及分类器。
总结上述内容,在本申请实施例中,预训练编码器是通过将训练样本生成训练样本的训练过程训练得到的,具体的,获取第一训练样本,第一训练样本中包括第一分类文本,第一分类文本至少由多层级第一训练文本信息构成;根据第一分类文本对待训练编码器进行迭代训练,直至迭代终止时,得到预训练编码器;其中每次迭代训练过程中,将第一分类文本输入至待训练编码器,通过待训练编码器确定第一分类文本中每个层级第一训练文本信息的重要度,并根据所有层级第一训练文本信息的重要度确定第一分类文本的第一目标特征;将第一目标特征输入至待训练解码器中,通过待训练的解码器输出第一输出结果,根据第一输出结果与第一分类文本自身确定第一损失函数,并通过第一损失函数调整待训练编码单元以及待训练解码单元的模型参数。
在对预训练编码器进行训练的过程,可以使用上述实施例中介绍的注意力机制以及门控单元GRU来确定训练样本的目标特征向量,下面结合图6,解释预训练编码器的训练过程。
在图7中,首先将各词语输入至待训练编码器中,各词语之间具有关联性,训练样本为“我累了,睡了”,待训练编码器首先将各训练样本中的各词语转换为词语向量,然后根据门控单元GRU以及注意力机制,确定每个词语向量的向量特征,针对每个短句,根据短句中各个词语向量的向量特征确定短句特征向量,在本申请实施例中,短句特征向量为“我累了”对应的特征向量,以及“睡了”对应的特征向量;根据短句向量特征确定了训练样本的特征向量。
通过解码器,确定训练样本的特征向量的短句层级的解码结果,并根据短句层级的解码结果,确定词语层级的解码结果。
图7输入至待训练编码器各词语与待训练解码器输出的各词语依次对应,但顺序相反。
进一步的,针对分类器与编码器是通过预训练编码器以及待训练分类器联合训练的过程,获取第二训练样本,第二训练样本中包括第二分类文本以及第二分类文本的真实分类结果,第二分类文本包括多层级第二训练文本信息,第二分类文本与待分类文本具有相同的属性特征;根据第二分类文本对预训练编码器以及待训练分类器进行迭代训练,直至迭代终止时,得到编码器以及分类器;其中每次迭代训练过程中,将第二分类文本输入至预训练编码器中,通过预训练编码器确定第二分类文本中每个层级第二训练文本信息的重要度,并根据所有层级第二训练文本信息的重要度确定第二分类文本的第二目标特征;将第二目标特征输入至待训练分类器中,得到第三输出结果,根据第三输出结果与第二分类文本的真实分类结果确定第二损失函数,并根据第二损失函数调整预训练编码器以及待训练分类器的模型参数。
上述内容可知,在进行联合训练的过程中,使用的是与待分类文本属于同一属性的训练样本,例如待分类文本为医学病例文本,则联合训练使用的训练样本,也是医学病例文本。
为了更好的解释本申请实施例,下面结合一种具体的实施场景描述本申请实施例提供的文本分类方法,如图8所示,本申请的文本分类方法用于医学判别电子病例是否为肿瘤疾病,首先通过自编码技术,训练预训练编码器,在进行训练时,需要关联训练样本中各向量的重要度特征以及关联特征,通过输入训练样本以及输出训练样本进行迭代训练,每次迭代训练的目标为,将输入训练样本输出为输入训练样本。
进一步地,在得到预训练的预训练编码器后,再利用微调过程,与待训练的分类器联合训练,具体的,本次训练过程中的训练样本为电子病例,这些电子病例中部分病例为肿瘤病例,另一部分为非肿瘤病例,通过多次迭代训练,得到已训练编码器以及已训练分类器,每次迭代训练的目标为电子病例的真实病例结果,即是否为肿瘤病例。
经过上述离线训练过程,可以得到已训练编码器以及已训练分类器,在病例分类服务器中加载已训练编码器以及已训练分类器,分类服务器获取各个医院上传的电子病例,通过将电子病例中的病例分别提取目标特征的过程,得到各电子病例是否为肿瘤病例的结果,并可以发送给各医院。
基于相同的技术构思,本申请实施例提供一种文本分类装置900,如图9所示,包括:
多层级文本信息获取单元901,用于确定待分类文本中包括的多层级文本信息;
目标特征确定单元902,用于通过编码器确定每个层级文本信息的重要度,并根据所有层级文本信息的重要度确定待分类文本的目标特征;
分类单元903,用于通过分类器确定目标特征对应的分类结果,其中分类器与编码器是通过预训练编码器以及待训练分类器联合训练得到的,预训练编码器是通过将训练样本生成训练样本的训练过程训练得到的。
可选的,多层级文本信息获取单元901具体用于:
确定待分类文本中词语的数量,并根据数量确定划分层级;
根据划分层级将待分类文本进行层级划分,得到多层级文本信息。
可选的,多层级文本信息获取单元901具体用于:
根据待分类文本中的各标点信息,将分类文本划分为多个短句层级文本,并得到多个短句层级文本信息;
将每个短句层级文本信息中的词语,作为词语层级文本信息。
可选的,目标特征确定单元902具体用于:
通过注意力机制确定每个短句层级文本信息中,每个词语文本信息的第一重要度,以及确定待分类文本中每个短句层级文本信息的第二重要度。
可选的,目标特征确定单元902具体用于:
将每个词语文本信息转换为对应的词语向量;
针对任一词语向量,确定词语向量与其它词语向量之间的第一关联度,并根据第一关联度确定词语向量特征;
根据注意力机制确定每个词语向量特征的第一重要度,并根据每个短句层级文本信息中,每个词语向量特征以及对应的第一重要度,确定每个短句层级文本信息的短句向量;
针对任一短句向量,确定短句向量与其它短句向量之间的第二关联度,并根据第二关联度确定短句向量特征;
通过注意力机制确定每个短句向量特征的第二重要度。
可选的,目标特征向量确定单元902具体用于:
通过编码器中的门控循环神经网络GRU确定各词语向量与各前序词语向量之间的上下文关联特征。
可选的,装置900还包括:
训练单元904,获取第一训练样本,第一训练样本中包括第一分类文本,第一分类文本至少由多层级第一训练文本信息构成;
根据第一分类文本对待训练编码器进行迭代训练,直至迭代终止时,得到预训练编码器;
其中每次迭代训练过程中,将第一分类文本输入至待训练编码器,通过待训练编码器确定第一分类文本中每个层级第一训练文本信息的重要度,并根据所有层级第一训练文本信息的重要度确定第一分类文本的第一目标特征;
将第一目标特征输入至待训练解码器中,通过待训练的解码器输出第一输出结果,根据第一输出结果与第一分类文本自身确定第一损失函数,并通过第一损失函数调整待训练编码单元以及待训练解码单元的模型参数。
可选的,训练单元904具体用于:
获取第二训练样本,第二训练样本中包括第二分类文本以及第二分类文本的真实分类结果,第二分类文本包括多层级第二训练文本信息,第二分类文本与待分类文本具有相同的属性特征;
根据第二分类文本对预训练编码器以及待训练分类器进行迭代训练,直至迭代终止时,得到编码器以及分类器;
其中每次迭代训练过程中,将第二分类文本输入至预训练编码器中,通过预训练编码器确定第二分类文本中每个层级第二训练文本信息的重要度,并根据所有层级第二训练文本信息的重要度确定第二分类文本的第二目标特征;
将第二目标特征输入至待训练分类器中,得到第三输出结果,根据第三输出结果与第二分类文本的真实分类结果确定第二损失函数,并根据第二损失函数调整预训练编码器以及待训练分类器的模型参数。
可选的,第二分类文本为医学病例文本,医学病例文本至少由多个病例短句构成。
基于相同的技术构思,本申请实施例提供了一种计算机设备,如图10所示,包括至少一个处理器1001,以及与至少一个处理器连接的存储器1002,本申请实施例中不限定处理器1001与存储器1002之间的具体连接介质,图10中处理器1001和存储器1002之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。
在本申请实施例中,存储器1002存储有可被至少一个处理器1001执行的指令,至少一个处理器1001通过执行存储器1002存储的指令,可以执行前述的文本分类方法中所包括的步骤。
其中,处理器1001是计算机设备的控制中心,可以利用各种接口和线路连接终端设备的各部分,通过运行或执行存储在存储器1002内的指令以及调用存储在存储器1002内的数据,从而获得客户端地址。待选的,处理器1001可包括一个或多个处理单元,处理器1001可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1001中。在一些实施例中,处理器1001和存储器1002可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器1001可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器1002作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1002可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器1002是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器1002还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
基于相同的技术构思,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当程序在计算机设备上运行时,使得计算机设备执行文本分类方法的步骤。
上述计算机可读存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (15)

1.一种文本分类方法,其特征在于,所述方法包括:
获取待分类文本,确定所述待分类文本中包括的多层级文本信息;
通过编码器确定每个层级文本信息的重要度,并根据所有层级文本信息的重要度确定所述待分类文本的目标特征;
通过分类器确定所述目标特征对应的分类结果,其中所述分类器与所述编码器是通过预训练编码器以及待训练分类器联合训练得到的,所述预训练编码器是通过将训练样本生成所述训练样本的训练过程训练得到的。
2.根据权利要求1所述的方法,其特征在于,所述确定所述待分类文本中包括的多层级文本信息,包括:
确定所述待分类文本中词语的数量,并根据所述数量确定划分层级;
根据所述划分层级将所述待分类文本进行层级划分,得到所述多层级文本信息。
3.根据权利要求1所述的方法,其特征在于,所述确定所述待分类文本中包括的多层级文本信息,包括:
根据所述待分类文本中的各标点信息,将所述分类文本划分为多个短句层级文本,并得到多个短句层级文本信息;
将每个所述短句层级文本信息中的词语,作为词语层级文本信息。
4.根据权利要求3所述的方法,其特征在于,所述通过编码器确定每个层级文本信息的重要度,包括:
通过注意力机制确定每个短句层级文本信息中,每个词语文本信息的第一重要度,以及确定所述待分类文本中每个短句层级文本信息的第二重要度。
5.根据权利要求4所述的方法,其特征在于,所述通过注意力机制确定每个短句层级文本信息中,每个词语文本信息的第一重要度,以及确定所述待分类文本中每个短句层级文本信息的第二重要度,包括:
将每个词语文本信息转换为对应的词语向量;
针对任一所述词语向量,确定所述词语向量与其它所述词语向量之间的第一关联度,并根据所述第一关联度确定所述词语向量特征;
根据注意力机制确定每个所述词语向量特征的第一重要度,并根据每个所述短句层级文本信息中,每个所述词语向量特征以及对应的所述第一重要度,确定每个所述短句层级文本信息的短句向量;
针对任一所述短句向量,确定所述短句向量与其它所述短句向量之间的第二关联度,并根据所述第二关联度确定所述短句向量特征;
通过注意力机制确定每个所述短句向量特征的第二重要度。
6.根据权利要求1所述的方法,其特征在于,所述预训练编码器是通过将训练样本生成所述训练样本的训练过程训练得到的,包括:
获取第一训练样本,所述第一训练样本中包括第一分类文本,所述第一分类文本至少由多层级第一训练文本信息构成;
根据所述第一分类文本对待训练编码器进行迭代训练,直至迭代终止时,得到所述预训练编码器;
其中每次迭代训练过程中,将所述第一分类文本输入至所述待训练编码器,通过所述待训练编码器确定所述第一分类文本中每个层级所述第一训练文本信息的重要度,并根据所有层级所述第一训练文本信息的重要度确定所述第一分类文本的第一目标特征;
将所述第一目标特征输入至待训练解码器中,通过所述待训练的解码器输出第一输出结果,根据所述第一输出结果与所述第一分类文本自身确定第一损失函数,并通过所述第一损失函数调整所述待训练编码单元以及所述待训练解码单元的模型参数。
7.根据权利要求6所述的方法,其特征在于,所述分类器与所述编码器是通过预训练编码器以及待训练分类器联合训练得到的,包括:
获取第二训练样本,所述第二训练样本中包括第二分类文本以及所述第二分类文本的真实分类结果,所述第二分类文本包括多层级第二训练文本信息,所述第二分类文本与所述待分类文本具有相同的属性特征;
根据所述第二分类文本对所述预训练编码器以及待训练分类器进行迭代训练,直至迭代终止时,得到所述编码器以及所述分类器;
其中每次迭代训练过程中,将所述第二分类文本输入至所述预训练编码器中,通过所述预训练编码器确定所述第二分类文本中每个层级所述第二训练文本信息的重要度,并根据所有层级所述第二训练文本信息的重要度确定所述第二分类文本的第二目标特征;
将所述第二目标特征输入至待训练分类器中,得到第三输出结果,根据所述第三输出结果与所述第二分类文本的真实分类结果确定第二损失函数,并根据所述第二损失函数调整所述预训练编码器以及待训练分类器的模型参数。
8.根据权利要求7所述的方法,其特征在于,所述第二分类文本为医学病例文本,所述医学病例文本至少由多个病例短句构成。
9.一种文本分类装置,其特征在于,包括:
多层级文本信息获取单元,用于确定所述待分类文本中包括的多层级文本信息;
目标特征确定单元,用于通过编码器确定每个层级文本信息的重要度,并根据所有层级文本信息的重要度确定所述待分类文本的目标特征;
分类单元,用于通过分类器确定所述目标特征对应的分类结果,其中所述分类器与所述编码器是通过预训练编码器以及待训练分类器联合训练得到的,所述预训练编码器是通过将训练样本生成所述训练样本的训练过程训练得到的。
10.根据权利要求9所述的装置,其特征在于,所述多层级文本信息获取单元具体用于:
确定所述待分类文本中词语的数量,并根据所述数量确定划分层级;
根据所述划分层级将所述待分类文本进行层级划分,得到所述多层级文本信息。
11.根据权利要求9所述的装置,其特征在于,所述多层级文本信息获取单元具体用于:
根据所述待分类文本中的各标点信息,将所述分类文本划分为多个短句层级文本,并得到多个短句层级文本信息;
将每个所述短句层级文本信息中的词语,作为词语层级文本信息。
12.根据权利要求11所述的装置,其特征在于,所述目标特征确定单元具体用于:
通过注意力机制确定每个短句层级文本信息中,每个词语文本信息的第一重要度,以及确定所述待分类文本中每个短句层级文本信息的第二重要度。
13.根据权利要求12所述的装置,其特征在于,所述目标特征确定单元具体用于:
将每个词语文本信息转换为对应的词语向量;
针对任一所述词语向量,确定所述词语向量与其它所述词语向量之间的第一关联度,并根据所述第一关联度确定所述词语向量特征;
根据注意力机制确定每个所述词语向量特征的第一重要度,并根据每个所述短句层级文本信息中,每个所述词语向量特征以及对应的所述第一重要度,确定每个所述短句层级文本信息的短句向量;
针对任一所述短句向量,确定所述短句向量与其它所述短句向量之间的第二关联度,并根据所述第二关联度确定所述短句向量特征;
通过注意力机制确定每个所述短句向量特征的第二重要度。
14.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1~8任一权利要求所述方法的步骤。
15.一种计算机可读存储介质,其特征在于,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行权利要求1~8任一权利要求所述方法的步骤。
CN202010622062.1A 2020-06-30 2020-06-30 一种文本分类方法及装置 Active CN111881292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010622062.1A CN111881292B (zh) 2020-06-30 2020-06-30 一种文本分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010622062.1A CN111881292B (zh) 2020-06-30 2020-06-30 一种文本分类方法及装置

Publications (2)

Publication Number Publication Date
CN111881292A true CN111881292A (zh) 2020-11-03
CN111881292B CN111881292B (zh) 2023-11-07

Family

ID=73157373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010622062.1A Active CN111881292B (zh) 2020-06-30 2020-06-30 一种文本分类方法及装置

Country Status (1)

Country Link
CN (1) CN111881292B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100389A (zh) * 2020-11-18 2020-12-18 智者四海(北京)技术有限公司 一种长文本分类方法及装置
CN112598065A (zh) * 2020-12-25 2021-04-02 天津工业大学 一种基于记忆的门控卷积神经网络语义处理系统及方法
CN113010674A (zh) * 2021-03-11 2021-06-22 平安科技(深圳)有限公司 文本分类模型封装方法、文本分类方法及相关设备
CN113345423A (zh) * 2021-06-24 2021-09-03 科大讯飞股份有限公司 语音端点检测方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209806A (zh) * 2018-06-05 2019-09-06 腾讯科技(深圳)有限公司 文本分类方法、文本分类装置及计算机可读存储介质
CN110363568A (zh) * 2019-06-06 2019-10-22 上海交通大学 融合文本多主题信息的股票价格预测方法、系统及介质
US20200042600A1 (en) * 2017-12-11 2020-02-06 Abbyy Production Llc Using autoencoders for training natural language text classifiers

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200042600A1 (en) * 2017-12-11 2020-02-06 Abbyy Production Llc Using autoencoders for training natural language text classifiers
CN110209806A (zh) * 2018-06-05 2019-09-06 腾讯科技(深圳)有限公司 文本分类方法、文本分类装置及计算机可读存储介质
CN110363568A (zh) * 2019-06-06 2019-10-22 上海交通大学 融合文本多主题信息的股票价格预测方法、系统及介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100389A (zh) * 2020-11-18 2020-12-18 智者四海(北京)技术有限公司 一种长文本分类方法及装置
CN112598065A (zh) * 2020-12-25 2021-04-02 天津工业大学 一种基于记忆的门控卷积神经网络语义处理系统及方法
CN112598065B (zh) * 2020-12-25 2023-05-30 天津工业大学 一种基于记忆的门控卷积神经网络语义处理系统及方法
CN113010674A (zh) * 2021-03-11 2021-06-22 平安科技(深圳)有限公司 文本分类模型封装方法、文本分类方法及相关设备
CN113010674B (zh) * 2021-03-11 2023-12-22 平安创科科技(北京)有限公司 文本分类模型封装方法、文本分类方法及相关设备
CN113345423A (zh) * 2021-06-24 2021-09-03 科大讯飞股份有限公司 语音端点检测方法、装置、电子设备和存储介质
CN113345423B (zh) * 2021-06-24 2024-02-13 中国科学技术大学 语音端点检测方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN111881292B (zh) 2023-11-07

Similar Documents

Publication Publication Date Title
Bai et al. A survey on automatic image caption generation
CN108733742B (zh) 全局归一化阅读器系统和方法
WO2021223323A1 (zh) 一种中文视觉词汇表构建的图像内容自动描述方法
CN111881292B (zh) 一种文本分类方法及装置
CN111026861B (zh) 文本摘要的生成方法、训练方法、装置、设备及介质
US11397892B2 (en) Method of and system for training machine learning algorithm to generate text summary
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
KR20170004154A (ko) 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템
Li et al. Adaptive cross-contextual word embedding for word polysemy with unsupervised topic modeling
CN111611805B (zh) 一种基于图像的辅助写作方法、装置、介质及设备
KR102379660B1 (ko) 딥러닝 기반 의미역 분석을 활용하는 방법
Ding et al. An attentive neural sequence labeling model for adverse drug reactions mentions extraction
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN112948676A (zh) 文本特征提取模型的训练方法、文本推荐方法及装置
CN113657105A (zh) 基于词汇增强的医学实体抽取方法、装置、设备及介质
Sun et al. Study on medical image report generation based on improved encoding-decoding method
Mankolli et al. Machine learning and natural language processing: Review of models and optimization problems
Karimvand et al. Sentiment analysis of persian instagram post: a multimodal deep learning approach
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN113408282A (zh) 主题模型训练和主题预测方法、装置、设备及存储介质
CN111368531A (zh) 翻译文本处理方法、装置、计算机设备和存储介质
Therasa et al. ARNN-QA: Adaptive Recurrent Neural Network with feature optimization for incremental learning-based Question Answering system
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN115730232A (zh) 基于主题相关的异构图神经网络跨语言文本分类方法
Thirumagal et al. GAN models in natural language processing and image translation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40030713

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant