CN112100389A - 一种长文本分类方法及装置 - Google Patents

一种长文本分类方法及装置 Download PDF

Info

Publication number
CN112100389A
CN112100389A CN202011291504.5A CN202011291504A CN112100389A CN 112100389 A CN112100389 A CN 112100389A CN 202011291504 A CN202011291504 A CN 202011291504A CN 112100389 A CN112100389 A CN 112100389A
Authority
CN
China
Prior art keywords
long text
sentence
word
feature vector
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011291504.5A
Other languages
English (en)
Inventor
李博
徐英杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhizhe Sihai Beijing Technology Co Ltd
Original Assignee
Zhizhe Sihai Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhizhe Sihai Beijing Technology Co Ltd filed Critical Zhizhe Sihai Beijing Technology Co Ltd
Priority to CN202011291504.5A priority Critical patent/CN112100389A/zh
Publication of CN112100389A publication Critical patent/CN112100389A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种长文本分类方法及装置,属于自然语言处理技术领域,用以解决现有技术中存在的无法进行长文本分类的问题。该模型包括:获取待识别的长文本;拆分长文本形成多个句子;对各个句子分别使用编码器获取对应的各个词语的编码表示;根据各个词语的编码表示,采用分层注意力网络得到长文本的特征向量;根据长文本的特征向量,采用多层感知器输出长文本的分类结果。

Description

一种长文本分类方法及装置
技术领域
本发明涉及自然语言处理技术领域,更具体地,涉及一种长文本分类方法及装置。
背景技术
目前文本分类经过近些年研究已经有大量模型,最常见就是基于预训练模型的方法,但预训练模型的时间复杂度为O(n2),仅用于处理句子级文本,并不适用于文档级长文本输入(由于训练模型自身限制难以处理超过512字的长文本),无法处理长文本的分类问题。因此,如何实现长文本分类是目前亟需解决的技术问题。
发明内容
有鉴于此,本发明实施例的目的在于提供一种长文本分类方法及装置,用以解决现有技术中存在的无法进行长文本分类的问题。
本发明实施例的第一方面,提供一种长文本分类方法,所述方法包括:获取待识别的长文本;拆分所述长文本形成多个句子;对各个句子分别使用编码器获取对应的各个词语的编码表示;根据各个词语的编码表示,采用分层注意力网络得到所述长文本的特征向量;根据所述长文本的特征向量,采用多层感知器输出所述长文本的分类结果。
在一个可能的实施例中,所述拆分所述长文本形成多个句子,包括:按照指定字符和/或指定长度将所述长文本拆分成多个小段,每个小段的长度不超过设定值;拼接多个小段形成不超过第一设定长度的句子,相邻两个句子间包括第二设定长度的重叠,且第一设定长度大于第二设定长度。
在一个可能的实施例中,所述编码器为ALBERT模型,所述对各个句子分别使用编码器获取对应的各个词语的编码表示,包括:将句子对应的词语
Figure DEST_PATH_IMAGE001
输入至ALBERT模型,输出的句子的编码表示为
Figure 100541DEST_PATH_IMAGE002
,其中n用于表示句子的个数,T表示句子中的词语的个数。
在一个可能的实施例中,所述ALBERT模型包括至少四层的Transformer。
在一个可能的实施例中,所述根据各个词语的编码表示,采用分层注意力网络得到所述长文本的特征向量,包括:将各个词语的编码表示输入至字符级注意力网络得到每个句子特征向量;将所述每个句子的特征向量输入双向门循环单元GRU及句子级注意力网络得到长文本的特征向量。
本发明实施例的第二方面,提供一种基于长文本的文本分类装置,所述装置包括:输入单元,用于获取长文本,所述长文本包括多个句子;编码单元,包括编码器,用于对各个句子分别使用所述编码器获取对应的各个词语的编码表示;特征提取单元,包括分层注意力网络,用于根据各个词语的编码表示,采用所述分层注意力网络得到所述长文本的特征向量;输出单元,包括多层感知器,用于根据所述长文本的特征向量,采用所述多层感知器输出所述长文本的分类结果。
在一个可能的实施例中,所述特征提取单元具体用于:将各个词语的编码表示输入至字符级注意力网络得到每个句子的特征向量;将所述每个句子的特征向量输入双向门循环单元GRU及句子级注意力网络得到长文本的特征向量。
本发明实施例的第三方面,提供一种长文本分类装置,所述装置包括:获取模块,被配置为获取待识别的长文本;拆分模块,被配置为拆分所述长文本形成多个句子;编码模块,被配置为对各个句子分别使用编码器获取对应的各个词语的编码表示;特征提取模块,被配置为根据各个词语的编码表示,采用分层注意力网络得到所述长文本的特征向量;输出模块,被配置为根据所述长文本的特征向量,采用多层感知器输出所述长文本的分类结果。
在一个可能的实施例中,所述拆分模块具体被配置为:按照指定字符和/或指定长度将所述长文本拆分成多个小段,每个小段的长度不超过设定值;拼接多个小段形成不超过第一设定长度的句子,相邻两个句子间包括第二设定长度的重叠,且第一设定长度大于第二设定长度。
在一个可能的实施例中,所述编码器为ALBERT模型,所述编码模块具体被配置为:将句子对应的词语
Figure 540505DEST_PATH_IMAGE001
输入至ALBERT模型,输出的句子的编码表示为
Figure 459919DEST_PATH_IMAGE003
,其中n用于表示句子的个数,T表示句子中的词语的个数。
在一个可能的实施例中,所述ALBERT模型包括至少四层的Transformer。
在一个可能的实施例中,所述特征提取模块具体被配置为:将各个词语的编码表示输入至字符级注意力网络得到每个句子特征向量;将所述每个句子的特征向量输入双向门循环单元GRU及句子级注意力网络得到长文本的特征向量。
本发明实施例的第四方面,提供一种电子设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如第一方面所述的方法。
本发明实施例的第五方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有可执行指令,该指令被处理器执行时使处理器执行如第一方面所述的方法。
本发明实施例提供的长文本分类方法及装置,包括获取待识别的长文本;拆分长文本形成多个句子;对各个句子分别使用编码器获取对应的各个词语的编码表示;根据各个词语的编码表示,采用分层注意力网络得到长文本的特征向量;根据长文本的特征向量,采用多层感知器输出长文本的分类结果。相比于现有技术的预训练模型,本方案中通过编码器获得句子编码表示更加准确,用于之后的分类效果明显提升,通过多层注意力网络获得长文本的特征向量,充分考虑各个句子之间的联系,提高了文本分类结果的准确度。
本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通过附图所示,本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本申请的主旨。
图1示出了本发明实施例提供的一种长文本分类方法的流程图;
图2示出了本发明实施例提供的一种基于长文本的文本分类模型的结构示意图;
图3示出了本发明实施例提供的一种长文本分类装置的结构示意图;
图4示出了本发明实施例提供的一种长文本分类模型的训练方法的流程图;
图5示出了本发明实施例提供的一种长文本分类模型的训练装置的结构示意图;
图6示出了本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
以下,将参照附图来描述本发明的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本发明。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思,除非上下文另外明确指出。此外,在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
目前,常见的文本分类模型主要包括以下两种方式:
1.传统神经网络方法。传统方法使用的词向量不能处理多义词问题,并且模型获取的句子特征并不准确,模型效果较差。
2.拆分直接训练,该方法尽管可以间接使用预训练模型进行分类。但是存在以下问题:a、不能处理某些任务(本身需要考虑整个文本的意思,拆分为短句后不能判断);b、正负样本数据为长文本,但是切分长文本为短文本后标签未知,需要重新标注。
基于以上存在的部分问题,为此,本发明实施例提供一种长文本分类方法及装置,包括获取待识别的长文本;拆分长文本形成多个句子;对各个句子分别使用编码器获取对应的各个词语的编码表示;根据各个词语的编码表示,采用分层注意力网络得到长文本的特征向量;根据长文本的特征向量,采用多层感知器输出长文本的分类结果。相比于现有技术的预训练模型,本方案中通过编码器获得句子编码表示更加准确,用于之后的分类效果明显提升,通过多层注意力网络获得长文本的特征向量,充分考虑各个句子之间的联系,提高了文本分类结果的准确度。以下将结合附图1-6对本发明实施的技术内容进行详细说明,具体可以参考下文。
如图1所示,为本发明实施例提供的一种长文本分类方法的流程图,该方法包括:
101、获取待识别的长文本。
本发明中,待识别的长文本可以是中文文本、英文文本等各种语言的文本,例如,长文本可以使一则新闻、一篇文章或者一篇论文等。
102、拆分长文本形成多个句子。
作为一种可选的实施方式,上述的步骤102具体包括以下内容:
102a、按照指定字符和/或指定长度将长文本拆分成多个小段,每个小段的长度不超过设定值。
102b、拼接多个小段形成不超过第一设定长度的句子,相邻两个句子间包括第二设定长度的重叠,且第一设定长度大于第二设定长度。
示例性的,上述的指定字符包括但不限于标点符号、字母、数字、以及表情符号。上述的102a中将长文本拆分为多个小段包括以下三种实现方式:1、直接根据指定字符将长文本拆分成多个小段,例如可以根据标点符号进行拆分;2、直接按照指定长度将长文本拆分成多个小段,例如按照指定长度10个字符进行拆分;3、先按照指定字符进行拆分,若拆分后的句子长度较长(比如长度大于10),则需要对该长度较长的句子再次按照指定长度进行切分。
需要说明的是,上述的设定值、第一设定长度以及第二设定长度可以根据实际情况进行设定,且可以随着实际情况的变化灵活进行调节。
通过上述的方式实现对长文本切分形成多个句子,能够减小长文本切分造成的歧义,这样经过后续编码步骤以及特征提取步骤后得到的特征向量较为准确,从而根据特征向量进行文本分类时得到的分类结果也较为准确。
下面以具体的例子进行说明长文本的拆分过程,这里指定字符以标点符号为例,具体内容如下:
文章"虽然酒店的设施慢慢有点旧了,但酒店前台的服务人员给人感觉很舒服,门口的服务生,也很有服务意识,看我打车似乎不太顺利,就帮我叫车,因为我和的士司机都不太清楚目的地所在,又帮我问其他人我要去的目的地所在。总之感觉比原来的马可孛罗酒店好。"按照上述的切分规则进行切分的过程如下:
1.按照标点符号拆分文章,并且拆分后长度超过10的会按长度再次拆分,最终得到长度不超过10的句子碎片。
“虽然酒店的设施慢慢有”,“点旧了,”,“但酒店前台的服务人员”,“给人感觉很舒服,”,“门口的服务生,”,“也很有服务意识,”,“看我打车似乎不太顺利”,“,”,“就帮我叫车,”,“因为我和的士司机都不”,“太清楚目的地所在,”,“又帮我问其他人我要去”,“的目的地所在。”,“总之感觉比原来的马可”,“孛罗酒店好。”。
2.拼接句子碎片为长句子,保证长度不超过最长长度40且前后两长句子有不超过10的重叠。则拼接后第一个长句为“虽然酒店的设施慢慢有点旧了,但酒店前台的服务人员给人感觉很舒服,门口的服务生,”,第二个长句为“门口的服务生,也很有服务意识,看我打车似乎不太顺利,就帮我叫车,”。长度皆不超过40,且两句重叠部分不超过10。
剩余长句子为“就帮我叫车,因为我和的士司机都不太清楚目的地所在,又帮我问其他人我要去”,“又帮我问其他人我要去的目的地所在。总之感觉比原来的马可孛罗酒店好。”
此处为了描述方便,在展示时设置拼接后长句子最长长度为40,最长重叠长度为10,切分后的多个句子碎片的长度不超过10,这样在导致第一、二、七、八、九句的切分点为非标点符号处,而实际使用中长句子最长长度可以进行设置,例如可以是320,最长重叠长度也可以进行设置,例如可以为20,大部分数据都是按照标点符号切分,当文章中的句子长度超过设定值(例如,长度超过10)时,就先按照标点符号切分,然后在按照长度进行二次切分。该方法尽量避免了词语或短语被切分为两部分对句子意思造成的影响。
103、对各个句子分别使用编码器获取对应的各个词语的编码表示。
作为一种可选的实施方式,上述的编码器为ALBERT模型,该ALBERT模型为BERT模型的升级版。Bert模型基于Transformer抽取文本特征,相比CNN/RNN更加高效,能捕捉真正意义上的双向上下文信息和更长距离的依赖;并且其先基于大量语料进行预训练然后在特定任务上微调,所以使用的开源Bert模型就已经携带大量语义信息。而ALBERT模型主要通过因式分解embedding、跨层参数共享、更换预训练任务,使在更小的参数量上能获取和Bert近似甚至更好的效果。面向长文本(平均长度为5000),使用Bert抽取句子信息由于参数量巨大,在显存、训练时间、预测时间上都是不可取的。ALBERT模型尝试将所有层的参数进行共享,相当于只学习第一层的参数,并在剩下的所有层中重用该层的参数,而不是每个层都学习不同的参数。因此,本发明采用ALBERT模型作为句子的编码器,获取句子级特征。
优选的,上述的ALBERT模型包括至少四层的Transformer。通常情况下,层数越多,模型越复杂,在数据越多的情况下效果更好,训练时间、预测时间都会变长。由于设置Transformer层数更少会导致模型效果下降,设置更多会导致训练时间变长,更重要的是导致预测时间变长,不满足上线使用要求。通过大量的试验表明,本方案将ALBERT模型设置为四层Transformer,是模型达到最优的情况。
作为一种可选的实施方式,上述对各个句子分别使用编码器获取对应的各个词语的编码表示,包括:将句子对应的词语
Figure 154206DEST_PATH_IMAGE001
输入至ALBERT模型,输出的句子的编码表示为
Figure 618816DEST_PATH_IMAGE003
,其中n用于表示句子的个数,T表示句子中的词语的个数。
104、根据各个词语的编码表示,采用分层注意力网络得到长文本的特征向量。
作为一种可选的实施方式,上述的步骤104包括以下内容:
104a、将各个词语的编码表示输入至字符级注意力网络得到每个句子特征向量。
104b、将每个句子的特征向量输入双向门控循环单元(英文:Gated RecurrentNeural Networks,简称:GRU)及句子级注意力网络得到长文本的特征向量。
示例性的,上述的分层注意力网络包括字符级注意力网络和句子级注意力网络,其具体实现的内容如下所示:
a)字符级注意力:
给定一个包含T个词语的句子,首先将词语通过embedding矩阵转化为词向量,然后使用双向GRU获得句子的隐层表示
Figure 664132DEST_PATH_IMAGE004
。其中前向GRU自前向后遍历句子产生隐层表示,后向GRU自后向前遍历句子获得隐层表示,这样做可以充分提取上下文信息。将前向和后向GRU的隐层表示拼接在一起就得到了句子新的隐层表示
Figure 121659DEST_PATH_IMAGE004
Figure 670452DEST_PATH_IMAGE004
包含了两个方向的信息,即
Figure 70078DEST_PATH_IMAGE005
接下来,
Figure 399428DEST_PATH_IMAGE004
经过多层感知器(Multi-layer Perceptron,MLP)得到各个词语的
Figure 598328DEST_PATH_IMAGE006
,然后计算
Figure 814677DEST_PATH_IMAGE006
和字级上下文向量
Figure 73620DEST_PATH_IMAGE007
的相似性,并通过softmax函数进行归一化,最终得到各词语权重
Figure 890266DEST_PATH_IMAGE008
。之后将句子向量
Figure 627278DEST_PATH_IMAGE009
表示为字符表示的加权之和。
b)句子级注意力
首先,获取各个句子向量
Figure 462248DEST_PATH_IMAGE009
后,再一次使用双向GRU得到文档的隐层表示
Figure 892092DEST_PATH_IMAGE010
Figure 930455DEST_PATH_IMAGE011
Figure 284207DEST_PATH_IMAGE012
,将前向GRU与后向GRU获得的隐层表示进行拼接得到文档新的隐层表示
Figure 927678DEST_PATH_IMAGE010
。这样获得的表示可以包含两个方向的上下文信息,即
Figure 262845DEST_PATH_IMAGE013
其次,采用句子级别的上下文向量
Figure 54083DEST_PATH_IMAGE014
,来衡量一个句子在整篇文档的重要性。最后,得到的向量
Figure 444482DEST_PATH_IMAGE015
就是整合了所有句子信息的文档表示,即得到长文本的特征向量。
105、根据长文本的特征向量,采用多层感知器输出长文本的分类结果。
作为一种可选的实施方式,上述得到的长文本的特征向量
Figure 942460DEST_PATH_IMAGE015
是文本的高层次的抽象表示,可作为分类的特征。将上述的长文本的特征向量输入至MLP中即可得到长文本的分类结果。
示例性的,上述的长文本的分类场景包括但不限于:长文本的质量或长文本的情感倾向。只要是任何基于长文本的分类即可,相应的,上述的分类结果包括但不限于:优质文本或劣质文本,积极文本或消极文本,以及支持意见的文本或反对意见的文本。
如图2所示,为本发明实施例提供的一种基于长文本的文本分类装置的结构示意图。该装置包括:
输入单元,用于获取长文本。
上述的长文本包括多个句子,每个句子包括多个词语。
例如,长文本包括
Figure 510844DEST_PATH_IMAGE016
个句子,第
Figure 727062DEST_PATH_IMAGE017
个句子
Figure 422616DEST_PATH_IMAGE018
包含
Figure 775100DEST_PATH_IMAGE020
个词语,
Figure 779966DEST_PATH_IMAGE021
是第
Figure 217900DEST_PATH_IMAGE017
个句子的第
Figure 950102DEST_PATH_IMAGE022
个字。
编码单元,包括编码器,用于对各个句子分别使用所述编码器获取对应的各个词语的编码表示。
作为一种可选的实现方式,上述的编码器为ALBERT模型,将句子对应的词语
Figure 422671DEST_PATH_IMAGE023
输入至ALBERT模型,输出的句子的编码表示为
Figure 332858DEST_PATH_IMAGE024
,其中n用于表示句子的个数,T表示句子中的词语的个数。
特征提取单元,包括分层注意力网络,用于根据各个词语的编码表示,采用分层注意力网络得到所述长文本的特征向量。
作为一种可选的实现方式,上述的特征提取单元具体用于:将各个词语的编码表示输入至字符级注意力网络得到每个句子的特征向量;将每个句子的特征向量输入双向GRU及句子级注意力网络得到长文本的特征向量。
给定一个包含T个词语的句子,首先将词语通过embedding矩阵转化为词向量,然后使用双向GRU获得句子的隐层表示
Figure 258089DEST_PATH_IMAGE004
。其中前向GRU自前向后遍历句子产生隐层表示,后向GRU自后向前遍历句子获得隐层表示,这样做可以充分提取上下文信息。将前向和后向GRU的隐层表示拼接在一起就得到了句子新的隐层表示
Figure 482397DEST_PATH_IMAGE004
Figure 622523DEST_PATH_IMAGE004
包含了两个方向的信息,即
Figure 906873DEST_PATH_IMAGE005
接下来,
Figure 381717DEST_PATH_IMAGE004
经过MLP得到各个词语的
Figure 144137DEST_PATH_IMAGE006
,然后计算
Figure 637304DEST_PATH_IMAGE006
和字级上下文向量
Figure 92556DEST_PATH_IMAGE007
的相似性,并通过softmax函数进行归一化,最终得到各词语权重
Figure 54696DEST_PATH_IMAGE008
。之后将句子向量
Figure 620806DEST_PATH_IMAGE009
表示为字符表示的加权之和。字级上下文向量
Figure 469945DEST_PATH_IMAGE007
随机初始化通过学习获取。具体计算如下:
Figure 96098DEST_PATH_IMAGE025
(公式1)
Figure 545534DEST_PATH_IMAGE026
(公式2)
Figure 961341DEST_PATH_IMAGE027
(公式3)
其中,上述的
Figure 117516DEST_PATH_IMAGE004
表示句子的隐层表示,
Figure 976887DEST_PATH_IMAGE006
表示句子的更高层次的隐层表示,
Figure 398772DEST_PATH_IMAGE007
表示词语级别的上下文向量,
Figure 572265DEST_PATH_IMAGE008
表示权重矩阵,代表句子i中第t个词语的注意力权重系数;
Figure 582946DEST_PATH_IMAGE009
表示句子向量。
Figure 613219DEST_PATH_IMAGE028
Figure 709351DEST_PATH_IMAGE029
为固定参数。
在获取各个句子向量
Figure 466960DEST_PATH_IMAGE030
后,再一次使用双向GRU得到文档的隐层表示
Figure 597727DEST_PATH_IMAGE031
Figure 798901DEST_PATH_IMAGE032
Figure 382330DEST_PATH_IMAGE012
,将前向GRU与后向GRU获得的隐层表示进行拼接得到文档新的隐层表示
Figure 445095DEST_PATH_IMAGE033
。这样获得的表示可以包含两个方向的上下文信息,即
Figure 430368DEST_PATH_IMAGE034
其次,采用句子级别的上下文向量
Figure 802444DEST_PATH_IMAGE014
,来衡量一个句子在整篇文档的重要性。
最后,得到的向量
Figure 873168DEST_PATH_IMAGE015
就是整合了所有句子信息的文档表示,即得到长文本的特征向量。具体计算如下:
Figure 926574DEST_PATH_IMAGE035
(公式4)
Figure 77939DEST_PATH_IMAGE036
(公式5)
Figure 620916DEST_PATH_IMAGE037
(公式6)
其中,上述的
Figure 913357DEST_PATH_IMAGE038
表示文档的隐层表示,
Figure 770454DEST_PATH_IMAGE039
表示文档的更高层次的隐层表示,
Figure 277790DEST_PATH_IMAGE014
表示句子级别的上下文向量,
Figure 929351DEST_PATH_IMAGE040
表示权重矩阵,代表每个句子i的注意力权重系数;
Figure 36985DEST_PATH_IMAGE015
表示长文本的特征向量。
Figure 432194DEST_PATH_IMAGE041
Figure 292571DEST_PATH_IMAGE042
为固定参数。
输出单元,包括多层感知器,用于根据长文本的特征向量,采用多层感知器输出长文本的分类结果。
本发明提出的模型主要处理长文本分类问题,将长文本拆分为多句后使用ALBERT模型抽取各句编码表示,然后采用分层注意力网络获取长文本的特征向量,最终连接MLP进行分类。
相比传统神经网络方法:由于ALBERT模型的优势,我们提出的方法获取的句子编码表示更加准确,之后用于分类效果有明显提升,并且训练预测速度和BERT相当。
相比拆分后分别训练的方法:对于1.不可将文本拆分处理的任务,该方法不能处理,但是本发明的模型可以处理。对于2.首先需要对拆分后的短文本进行标注,本发明模型不需要新标注,也解决了拆分后单独当作样本进行处理,各个短文本之间的联系被切断,不能考虑全文的语义信息及意思联系这一问题。
下面将基于图1对应的长文本分类方法的实施例中的相关描述对本发明实施例提供的一种长文本的分类装置进行介绍。以下实施例中与上述实施例相关的技术术语、概念等的说明可以参照上述的实施例。
如图3所示,为本发明实施例提供的一种长文本分类装置的结构示意图,该装置包括:获取模块31、拆分模块32、编码模块33、特征提取模块34以及输出模块35,其中:
获取模块31,被配置为获取待识别的长文本;拆分模块32,被配置为拆分长文本形成多个句子;编码模块33,被配置为对各个句子分别使用编码器获取对应的各个词语的编码表示;特征提取模块34,被配置为根据各个词语的编码表示,采用分层注意力网络得到长文本的特征向量;输出模块35,被配置为根据长文本的特征向量,采用多层感知器输出长文本的分类结果。
作为一种可选的实现方式,上述的拆分模块32具体被配置为:按照指定字符和/或指定长度将长文本拆分成多个小段,每个小段的长度不超过设定值;拼接多个小段形成不超过第一设定长度的句子,相邻两个句子间包括第二设定长度的重叠,且第一设定长度大于第二设定长度。
作为一种可选的实现方式,上述的编码器为ALBERT模型,编码模块具体被配置为:将句子对应的词语
Figure 380613DEST_PATH_IMAGE043
输入至ALBERT模型,输出的句子的编码表示为
Figure 709963DEST_PATH_IMAGE044
,其中n用于表示句子的个数,T表示句子中的词语的个数。
作为一种可选的实现方式,上述的ALBERT模型包括至少四层的Transformer。通常情况下,层数越多,模型越复杂,在数据越多的情况下效果更好,训练时间、预测时间都会变长。由于设置Transformer层数更少会导致模型效果下降,设置更多会导致训练时间变长,更重要的是导致预测时间变长,不满足上线使用要求。通过大量的试验表明,本方案将ALBERT模型设置为四层Transformer,是模型达到最优的情况。
作为一种可选的实现方式,上述的特征提取模块34具体被配置为:将各个词语的编码表示输入至字符级注意力网络得到每个句子特征向量;将每个句子的特征向量输入双向GRU及句子级注意力网络得到长文本的特征向量。
如图4所示,为本发明实施例提供的一种长文本分类模型的训练方法的流程图。该训练方法包括:
401、获取训练集,训练集包括长文本和分类标签,分类标签用于表示长文本对应的分类结果。
402、将分类标签和长文本输入至长文本分类模型迭代训练确定长文本分类模型的参数。
403、根据长文本分类模型参数构建长文本分类模型。
上述的步骤402具体包括以下内容:将分类标签和长文本输入至长文本分类模型训练模型参数;当验证集中的损失值和调和均值满足设定条件时,停止训练,确定长文本分类模型的参数。
在模型训练时,将上述的训练数据分为训练集,验证集以及测试集,需要设置合理的参数,包括迭代次数(epochs),一次训练过程的样本数(batch_size),早停(early_stopping)准则等。然后,进行训练模型内的各种参数,利用多个场景数据进行构建训练集,训练模型。
上述的训练集用于训练模型内的各种参数,利用多个场景数据构建训练集,训练模型。上述的验证集用于在模型训练过程中检验模型状态,收敛情况,以验证损失值(loss)和精确度和召回率的调和均值(f1)来决定模型哪组参数拥有最好的效果,并通过早停策略判断何时停止训练防止过拟合;上述的测试集来判断这个模型是否工作。
下面将基于图4对应的长文本分类模型的训练方法的实施例中的相关描述对本发明实施例提供的一种长文本分类模型的训练装置进行介绍。以下实施例中与上述实施例相关的技术术语、概念等的说明可以参照上述的实施例。
如图5所示,为本发明实施例提供的一种长文本分类模型的训练装置的结构示意图。该训练装置包括:获取模块51、训练模块52以及构建模块53,其中:
获取模块51,被配置为获取训练集,训练集包括长文本和分类标签,分类标签用于表示长文本对应的分类结果。
训练模块52,被配置为将分类标签和长文本输入至长文本分类模型迭代训练确定长文本分类模型的参数。
构建模块53,被配置为根据长文本分类模型参数构建长文本分类模型。
优选的,上述的步骤训练模块52具体被配置为:将分类标签和长文本输入至长文本分类模型训练模型参数;当验证集中的损失值和调和均值满足设定条件时,停止训练,确定长文本分类模型的参数。
本发明实施例提供的长文本分类装置,包括获取待识别的长文本;拆分长文本形成多个句子;对各个句子分别使用编码器获取对应的各个词语的编码表示;根据各个词语的编码表示,采用分层注意力网络得到长文本的特征向量;根据长文本的特征向量,采用多层感知器输出长文本的分类结果。相比于现有技术的预训练模型,本方案中通过编码器获得句子编码表示更加准确,用于之后的分类效果明显提升,通过多层注意力网络获得长文本的特征向量,充分考虑各个句子之间的联系,提高了文本分类结果的准确度。
如图6所示,为本发明实施例提供的一种电子设备的结构示意图,该电子设备600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行如图1或4所示的各种适当的动作和处理。在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。CPU 601、ROM602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种长文本分类方法,其特征在于,所述方法包括:
获取待识别的长文本;
拆分所述长文本形成多个句子;
对各个句子分别使用编码器获取对应的各个词语的编码表示;
根据各个词语的编码表示,采用分层注意力网络得到所述长文本的特征向量;
根据所述长文本的特征向量,采用多层感知器输出所述长文本的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述拆分所述长文本形成多个句子,包括:
按照指定字符和/或指定长度将所述长文本拆分成多个小段,每个小段的长度不超过设定值;
拼接多个小段形成不超过第一设定长度的句子,相邻两个句子间包括第二设定长度的重叠,且第一设定长度大于第二设定长度。
3.根据权利要求1所述的方法,其特征在于,所述编码器为ALBERT模型,所述对各个句子分别使用编码器获取对应的各个词语的编码表示,包括:
将句子对应的词语
Figure 31285DEST_PATH_IMAGE001
输入至ALBERT模型,输出的句子的编码表示为
Figure 762480DEST_PATH_IMAGE002
,其中n用于表示句子的个数,T表示句子中的词语的个数。
4.根据权利要求3所述的方法,其特征在于,所述ALBERT模型包括至少四层的Transformer。
5.根据权利要求1所述的方法,其特征在于,所述根据各个词语的编码表示,采用分层注意力网络得到所述长文本的特征向量,包括:
将各个词语的编码表示输入至字符级注意力网络得到每个句子特征向量;
将所述每个句子的特征向量输入双向门循环单元GRU及句子级注意力网络得到长文本的特征向量。
6.一种基于长文本的文本分类装置,其特征在于,所述装置包括:
输入单元,用于获取长文本,所述长文本包括多个句子;
编码单元,包括编码器,用于对各个句子分别使用所述编码器获取对应的各个词语的编码表示;
特征提取单元,包括分层注意力网络,用于根据各个词语的编码表示,采用所述分层注意力网络得到所述长文本的特征向量;
输出单元,包括多层感知器,用于根据所述长文本的特征向量,采用所述多层感知器输出所述长文本的分类结果。
7.根据权利要求6所述的装置,其特征在于,所述特征提取单元具体用于:
将各个词语的编码表示输入至字符级注意力网络得到每个句子的特征向量;
将所述每个句子的特征向量输入双向门循环单元GRU及句子级注意力网络得到长文本的特征向量。
8.一种长文本分类装置,其特征在于,所述装置包括:
获取模块,被配置为获取待识别的长文本;
拆分模块,被配置为拆分所述长文本形成多个句子;
编码模块,被配置为对各个句子分别使用编码器获取对应的各个词语的编码表示;
特征提取模块,被配置为根据各个词语的编码表示,采用分层注意力网络得到所述长文本的特征向量;
输出模块,被配置为根据所述长文本的特征向量,采用多层感知器输出所述长文本的分类结果。
9.一种电子设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有可执行指令,该指令被处理器执行时使处理器执行如权利要求1-5任一项所述的方法。
CN202011291504.5A 2020-11-18 2020-11-18 一种长文本分类方法及装置 Pending CN112100389A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011291504.5A CN112100389A (zh) 2020-11-18 2020-11-18 一种长文本分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011291504.5A CN112100389A (zh) 2020-11-18 2020-11-18 一种长文本分类方法及装置

Publications (1)

Publication Number Publication Date
CN112100389A true CN112100389A (zh) 2020-12-18

Family

ID=73785246

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011291504.5A Pending CN112100389A (zh) 2020-11-18 2020-11-18 一种长文本分类方法及装置

Country Status (1)

Country Link
CN (1) CN112100389A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297374A (zh) * 2021-04-29 2021-08-24 军事科学院系统工程研究院网络信息研究所 一种基于bert和字词特征融合的文本分类方法
CN114492404A (zh) * 2021-12-31 2022-05-13 北京金山数字娱乐科技有限公司 一种长文本的处理方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101673305A (zh) * 2009-09-29 2010-03-17 百度在线网络技术(北京)有限公司 行业分类方法、装置和服务器
CN110597988A (zh) * 2019-08-28 2019-12-20 腾讯科技(深圳)有限公司 一种文本分类方法、装置、设备及存储介质
CN111209395A (zh) * 2019-12-27 2020-05-29 铜陵中科汇联科技有限公司 一种短文本相似度计算系统及其训练方法
CN111881292A (zh) * 2020-06-30 2020-11-03 腾讯科技(深圳)有限公司 一种文本分类方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101673305A (zh) * 2009-09-29 2010-03-17 百度在线网络技术(北京)有限公司 行业分类方法、装置和服务器
CN110597988A (zh) * 2019-08-28 2019-12-20 腾讯科技(深圳)有限公司 一种文本分类方法、装置、设备及存储介质
CN111209395A (zh) * 2019-12-27 2020-05-29 铜陵中科汇联科技有限公司 一种短文本相似度计算系统及其训练方法
CN111881292A (zh) * 2020-06-30 2020-11-03 腾讯科技(深圳)有限公司 一种文本分类方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297374A (zh) * 2021-04-29 2021-08-24 军事科学院系统工程研究院网络信息研究所 一种基于bert和字词特征融合的文本分类方法
CN113297374B (zh) * 2021-04-29 2023-09-12 军事科学院系统工程研究院网络信息研究所 一种基于bert和字词特征融合的文本分类方法
CN114492404A (zh) * 2021-12-31 2022-05-13 北京金山数字娱乐科技有限公司 一种长文本的处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN107679234B (zh) 客服信息提供方法、装置、电子设备、存储介质
WO2022007823A1 (zh) 一种文本数据处理方法及装置
US11734375B2 (en) Automatic navigation of interactive web documents
CN111651996B (zh) 摘要生成方法、装置、电子设备及存储介质
CN113051374B (zh) 一种文本匹配优化方法及装置
CN112631436B (zh) 输入法敏感词的过滤方法及装置
CN111144120A (zh) 一种训练语句的获取方法、装置、存储介质及电子设备
CN113723105A (zh) 语义特征提取模型的训练方法、装置、设备及存储介质
CN116578688A (zh) 基于多轮问答的文本处理方法、装置、设备及存储介质
CN112100389A (zh) 一种长文本分类方法及装置
CN113761883A (zh) 一种文本信息识别方法、装置、电子设备及存储介质
CN112800184A (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN112349294A (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN114722832A (zh) 一种摘要提取方法、装置、设备以及存储介质
CN113220999B (zh) 用户特征的生成方法、装置、电子设备和存储介质
CN111597807A (zh) 分词数据集生成方法、装置、设备及其存储介质
Wu et al. Machine translation of English speech: Comparison of multiple algorithms
CN113918710A (zh) 文本数据处理方法、装置、电子设备和可读存储介质
CN113705207A (zh) 语法错误识别方法及装置
WO2023137903A1 (zh) 基于粗糙语义的回复语句确定方法、装置及电子设备
CN113627197B (zh) 文本的意图识别方法、装置、设备及存储介质
KR102446305B1 (ko) 하이라이팅 기능이 포함된 감정 분석 서비스를 위한 방법 및 장치
Belguith et al. Social Media sentiment classification for Tunisian Dialect: a deep learning approach
CN117876940B (zh) 视频语言任务执行及其模型训练方法、装置、设备、介质
CN116089602B (zh) 信息处理方法、装置、电子设备、存储介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201218

RJ01 Rejection of invention patent application after publication