CN113553848A - 长文本分类方法、系统、电子设备、计算机可读存储介质 - Google Patents

长文本分类方法、系统、电子设备、计算机可读存储介质 Download PDF

Info

Publication number
CN113553848A
CN113553848A CN202110815723.7A CN202110815723A CN113553848A CN 113553848 A CN113553848 A CN 113553848A CN 202110815723 A CN202110815723 A CN 202110815723A CN 113553848 A CN113553848 A CN 113553848A
Authority
CN
China
Prior art keywords
text
vector
preset
long
short text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110815723.7A
Other languages
English (en)
Other versions
CN113553848B (zh
Inventor
申存
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN202110815723.7A priority Critical patent/CN113553848B/zh
Publication of CN113553848A publication Critical patent/CN113553848A/zh
Application granted granted Critical
Publication of CN113553848B publication Critical patent/CN113553848B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种长文本分类方法、系统、电子设备、计算机可读存储介质,该方法通过对待分类的长文本进行分割,使得分割后的每个短文本段落的内容长度不超过预设内容长度,适应了BERT模型对输入文本长度的要求。另外,由于是根据长文本的文本结构对长文本进行分割,最大化完整保留了不同文本结构中的概述性信息,减少了长文本分割时因结构信息丢失及语义信息割裂带来的分类准确率下降的问题。另外将第一目标特征向量与第二预设维度向量拼接后才送入分类器进行分类,相比仅用训练后的BERT模型做分类,由于增加了对待分类长文本的语义表示维度,所以可以提高分类结果的准确度,用户体验度好、满意度高。

Description

长文本分类方法、系统、电子设备、计算机可读存储介质
技术领域
本发明涉及机器学习技术领域,具体涉及长文本分类方法、系统、电子设备、计算机可读存储介质。
背景技术
在2014年前后,多部网络文学作品改编成影视作品搬上荧幕,收获了广泛的市场影响力和可观的经济效益,在整个文化娱乐产业兴起了IP浪潮。
在IP评估中,需对长文本内容(例如,剧本、小说)进行文本分类。有效鉴别长文本类别可以避免评估人员接触大量不具有分析意义的长文本,从而节约人工分类时间,省去高成本的人工阅览工作。
文本分类是用电脑对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记。它根据一个已经被标注的训练文档集合,找到文档特征和文档类别之间的关系模型,然后利用这种学习得到的关系模型对新的文档进行类别判断。文本分类首先要将文本表示成计算机能够便于运算的符号(如词向量、共现矩阵等),接着捕捉不同文本单元的特征,例如短语、句子和文档等,最后综合各种特征,给文本打上标签。
随着机器学习技术的发展,现有技术中出现了大量基于机器学习模型进行文本分类的方法。例如,2018年提出的BERT模型,突破了静态词向量无法解决一词多义的问题,其基于语言模型的动态词向量,在自然语言处理的多项任务中取得了最优秀的结果。BERT的全称为Bidirectional Encoder Representation from Transformers,基于Transformer的双向编码器表征,是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的MLM模型(Masked Language Model,掩码语言模型),以致能生成深度的双向语言表征。
超长文本往往是一篇完整的文章,其中包含了多个句子,每个句子由若干个词项构成。同一个句子内的词项之间的语义关联更加紧密,不同句子之间的语义关联相对较小,但同时不同句子之间又具有语义上的联系。而BERT模型在处理超长文本时,往往是直接截断(BERT模型一次输入最多支持512长度的文本输入),将超过模型处理能力部分的文本直接丢弃,这种做法使得模型丢失了超长文本中的部分语义信息和结构信息,从而导致模型的特征提取能力弱,影响分类的准确率,无法获得满意的分类结果。
发明内容
为至少在一定程度上克服相关技术中存在的问题,本发明提供一种长文本分类方法、系统、电子设备、计算机可读存储介质,以解决现有技术中BERT模型在处理长文本分类任务时直接截断,导致的分类准确率低的问题。
根据本发明实施例的第一方面,提供一种长文本分类方法,包括:
获取待分类的长文本;
根据长文本的文本结构,将所述长文本分割为多个短文本段落,每个短文本段落的内容长度不超过预设内容长度;
获取所述短文本段落的第一预设多维度向量,并将所述短文本段落的第一预设多维度向量输入到训练后的BERT模型中,得到第一目标特征向量;
获取所述长文本的第二预设维度向量,所述第二预设维度向量包括语义向量;
将所述第一目标特征向量与所述第二预设维度向量进行拼接,并将拼接后的向量输入到预设分类器中,得到所述待分类的长文本的分类结果。
优选地,所述第一预设多维度向量,包括:
短文本段落向量,用于表征所述短文本段落的语义特征;
短文本类型向量,用于指示所述短文本段落所属文本结构;
短文本位置向量;用于指示所述短文本段落的相对位置;
每个所述短文本段落,对应一个所述短文本段落向量、一个所述短文本类型向量和一个所述短文本位置向量。
优选地,所述短文本段落向量,通过预设的BERT模型获取,具体为:
将分割后的各短文本段落依次输入到预设的BERT模型,得到各短文本段落对应的短文本段落向量。
优选地,所述将所述短文本段落的第一预设多维度向量输入到训练后的BERT模型中,得到第一目标特征向量,包括:
对所述短文本段落的第一预设多维度向量进行预设层数的编码,得到编码信息矩阵;
取所述编码信息矩阵的first token,并再经过一个全连接变换,得到第一目标特征向量。
优选地,所述预设层数为六层。
优选地,所述长文本包括:剧本;
所述长文本的文本结构类型包括:标题、背景、概况、角色介绍、正文;
每一种文本结构对应至少一个短文本段落。
优选地,所述根据长文本的文本结构,将所述长文本分割为多个短文本段落,包括:
将正文按句分割为多个短文本段落,每个所述短文本段落包含完整的句子,且每个所述短文本段落的内容长度不超过预设内容长度;
将标题、背景、概况、角色介绍各分割为一个短文本段落,每个所述短文本段落的内容长度不超过预设内容长度。
优选地,所述获取所述长文本的第二预设维度向量,具体为:
通过训练后的GBDT模型获取所述长文本的第二预设维度向量,包括:
获取待分类的长文本;
对所述长文本进行分词,构造所述长文本的原始一元模型特征;
将所述原始一元模型特征输入到训练后的GBDT模型,所述训练后的GBDT模型为每个分类标签建立第一预设数量的分类回归树,每棵分类回归树包括第二预设数量的叶子节点;所述原始一元模型特征落在叶子节点上的编号,构成所述长文本新的离散特征;
将所述新的离散特征与原始一元模型特征进行拼接,得到所述第二预设维度向量。
根据本发明实施例的第二方面,提供一种长文本分类系统,包括:
获取模块,用于获取待分类的长文本;
分割模块,用于根据长文本的文本结构,将所述长文本分割为多个短文本段落,每个短文本段落的内容长度不超过预设内容长度;
获取模块,用于获取所述短文本段落的第一预设多维度向量,并将所述短文本段落的第一预设多维度向量输入到训练后的BERT模型中,得到第一目标特征向量;
还用于获取所述长文本的第二预设维度向量,所述第二预设维度向量包括语义向量;
拼接模块,用于将所述第一目标特征向量与所述第二预设维度向量进行拼接,并将拼接后的向量输入到预设分类器中,得到所述待分类的长文本的分类结果。
根据本发明实施例的第三方面,提供一种电子设备,包括:
无线通信模块、处理器和存储器,其中,所述存储器中存储有程序指令;
所述处理器用于执行存储器中存储的程序指令,执行上述的方法。
根据本发明实施例的第四方面,提供一种计算机可读存储介质,其上存储有可擦写的计算机程序;
当所述计算机程序在计算机设备上运行时,使得所述计算机设备执行上述的方法。
本发明的实施例提供的技术方案可以包括以下有益效果:
通过对待分类的长文本进行分割,使得分割后的每个短文本段落的内容长度不超过预设内容长度,适应了BERT模型对输入文本长度的要求。另外,由于是根据长文本的文本结构对长文本进行分割,最大化完整保留了不同文本结构中的概述性信息,减少了长文本分割时因结构信息丢失及语义信息割裂带来的分类准确率下降的问题。
另外将第一目标特征向量与第二预设维度向量拼接后才送入分类器进行分类,相比仅用训练后的BERT模型做分类,由于增加了对待分类长文本的语义表示维度,所以可以提高分类结果的准确度,用户体验度好、满意度高。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种长文本分类方法的流程图;
图2是根据一示例性实施例示出的预设的BERT模型的结构示意图;
图3是根据一示例性实施例示出的预设的BERT模型的内部工作原理图;
图4是根据一示例性实施例示出的预设的BERT模型的输入输出示意图;
图5是根据一示例性实施例示出的训练后的BERT模型的结构示意图;
图6是根据一示例性实施例示出的一种长文本分类系统的示意框图;
图7是根据另一示例性实施例示出的一种长文本分类系统的示意框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
如前面背景技术,BERT模型在处理超长文本时,往往是直接截断(BERT模型一次输入最多支持512长度的文本输入),将超过模型处理能力部分的文本直接丢弃,这种做法使得模型丢失了超长文本中的部分语义信息和结构信息,从而导致模型的特征提取能力弱,影响分类的准确率,无法获得满意的分类结果。为了解决这一技术问题,本发明提供了以下几个示例性实施例,具体如下:
实施例一
图1根据一示例性实施例示出了一种长文本分类方法的流程图,如图1所示,该方法包括:
步骤S11、获取待分类的长文本。
需要说明的是:长文本是指词语数量超过512的文本,包括但不限于:新闻、剧本、小说、论文等。
以长文本为剧本为例,长文本所属类别包括但不限于:科普、悬疑、爱情、家庭伦理、校园、都市、乡村、偶像、动漫、青春剧、儿童剧、中老年剧、搞笑等。本实施例提供的技术方案,就是要通过二阶BERT模型,将待分类的长文本分类到对应的类别。
步骤S12、根据长文本的文本结构,将长文本分割为多个短文本段落,每个短文本段落的内容长度不超过预设内容长度。
需要说明的是,预设内容长度为BERT模型的最大长度限制。
由于BERT模型是按字/词数量来计算长度的,所以本实施例所提及的“内容长度”是指分割后的每个短文本段落中包含的字/词数量。
例如,假设某个短文本段落为“我有一只小花猫。”,其中量词“一只”BERT模型是看作一个词的,所以该短文本段落的内容长度为7,(我)(有)(一只)(小)(花)(猫)(。)—每个括号代表一个字/词,标点符合也占一个字/词,所以该短文本段落的内容长度为7。
可以理解的是,一般而言,长文本都有自己的文本结构,例如,论文包括:标题、作者、摘要、关键词、正文、参考文献和致谢;剧本包括:标题、背景、概况、角色介绍和正文。
以剧本为例,分割后的剧本,每一种文本结构对应至少一个短文本段落。
由于剧本的正文较长,而其他部分,例如标题、背景、概况、角色介绍较短,所以在具体实践中,可以将正文切割为多个短文本段落,将标题、背景、概况、角色介绍各切割为一个短文本段落。
例如,标题对应一个短文本段落;背景对应一个短文本段落;梗概对应一个短文本段落,角色对应一个短文本段落,正文对应多个短文本段落。
根据长文本的文本结构,将长文本分割为多个短文本段落,包括:
将正文按句分割为多个短文本段落,每个短文本段落包含完整的句子,且每个短文本段落的内容长度不超过预设内容长度;
将标题、背景、概况、角色介绍各分割为一个短文本段落,每个短文本段落的内容长度不超过预设内容长度(超过预设内容长度的部分,直接截断)。
对于正文,由于正文是按句子分割,在具体实践中,会遇到当达到预设内容长度时,某个句子会被截断。对于这种情况,本实施例采取的技术措施是:在分割长文本的正文时,若达到预设内容长度时,最后一个句子被截断了,则舍弃该句子,切割到该句子的前一个句子。
由于正文往往包含有较多的概述性信息,对分类结果影响比较大,而本实施例提供的技术方案,由于每个短文本段落包含完整的句子,最大化地保留了长文本的语义信息,为提高文本分类结果准确率提供了重要保障。
而对于其他文本结构,例如,标题、背景、概况、角色介绍,由于包含的概述性信息相对较少,所以对超过预设内容长度的部分,直接截断,这样可以保证不影响文本分类准确率的前提下,提高文本分类处理速度。
可以理解的是,通过对待分类的长文本进行分割,使得分割后的每个短文本段落的长度不超过预设内容长度,适用了BERT模型对输入文本的长度要求。同时,根据长文本的文本结构对长文本进行分割,不同的文本结构包含的概述性信息不同,这些概述性信息对最终的文本分类帮助很大,本实施例提供的这种文本分割方式,最大化完整保留了这些概述性信息,减少了长文本分割时,因结构信息丢失及语义信息割裂带来的分类准确率下降的问题。
步骤S13、获取短文本段落的第一预设多维度向量,并将短文本段落的第一预设多维度向量输入到训练后的BERT模型中,得到第一目标特征向量。
第一预设多维度向量,包括:
短文本段落向量,用于表征短文本段落的语义特征(例如图5中的Tokenmbedding);
短文本类型向量,用于指示短文本段落所属文本结构(例如图5中的TypeEmbedding);
短文本位置向量;用于指示短文本段落的相对位置(例如图5中的PosEmbedding);
每个短文本段落,对应一个短文本段落向量、一个短文本类型向量和一个短文本位置向量。
在NLP(Natural Langunge Possns,自然语言处理)里面,最细粒度的是字/词,字/词组成句子,句子再组成段落、篇章、文档。所以处理NLP的问题,首先要将符号形式的(比如中文、英文、拉丁文等等)字/词,转换成数值形式,也就是把一个字/词转换成对应的向量形式,来让机器读取数据。
将输入的文本(包含多个字/词)转换为对应的向量表示,可以通过多种方式获取,包括但不限于:通过Word2Vec算法、Glove算法、BERT模型等。
但是,Word2Vec和Glove属于上下文无关的字/词向量模型,Word2vec或GloVe可以为词表中的每一个字/词生成一个单独的“词向量”表示,例如,“bank”这个词在“bankdeposit”(银行)和“river bank”(岸边)的表示是一样的。而BERT模型属于上下文相关的字/词向量模型,会基于句子中的其他字/词生成每一个字/词的向量表示。因此,通过BERT模型获得的字/词向量,能更加准确地描述文本的语义信息。
因此,前文所提及的短文本段落向量,可以通过预设的BERT模型获取,具体为:
将分割后的各短文本段落依次输入到预设的BERT模型,得到各短文本段落对应的短文本段落向量。
需要说明的,此处所提及的“预设的BERT模型”和前文所提及的“训练后的BERT模型”属于两个不同的BERT模型。
此处所提及的“预设的BERT模型”是用来获取分割后的每个短文本段落的向量表示,而前文所提及的“训练后的BERT模型”是用来做文本分类的。前文所提及的“训练后的BERT模型”是借鉴现有的BERT模型架构,全新训练的一个用于文本分类的BERT模型。
对于此处所提及的“预设的BERT模型”,参见图2,输入的是文本,输入到预设的BERT模型之前,会先对文本中的每个字/词做一个线性映射,映射为对应的字/词向量(例如通过查字典的方式进行线性映射),但是该字/词向量是孤立的向量表示,无法体现当前字/词与上下文的语义关联关系,但将该字/词向量组成的向量矩阵输入到预设的BERT模型之后,输出的是能够体现上下文语义关联关系的字/词向量。
参见图3,以输入文本中的第二个字/词作为目标字,预设的BERT模型引入Attention机制,Attention机制主要涉及到三个概念:Query、Key和Value。目标字及其上下文的字都有各自的原始Value,Attention机制将目标字作为Query、其上下文的各个字作为Key,并将Query与各个Key的相似性作为权重,把上下文各个字的Value融入目标字的原始Value中。
如图3所示,Attention机制将目标字和上下文各个字的语义向量表示作为输入,首先通过线性变换获得目标字的Query向量表示、上下文各个字的Key向量表示以及目标字与上下文各个字的原始Value表示,然后计算Query向量与各个Key向量的相似度作为权重(最终形成每个目标字与其上下文的字的权重关系,权重和为1),加权融合目标字的Value向量和各个上下文字的Value向量(其实质就是做了点乘),作为Attention的输出,即:目标字的增强语义向量表示。
在具体实践中,用户可以根据需要,定义预设的BERT模型输出的字/词向量的维度,例如,定义输出的字/词向量的维度为768维。
假设任一短文本段落的长度为n,n=512,经过预设的BERT模型处理,得到n*768维的向量矩阵;对该n*768维的向量矩阵池化处理pooling后,得到1*768的短文本段落向量。参见图4,每个短文本段落包含多个句子,每个短文本段落经过预设的BERT模型后,得到一个1*768的短文本段落向量。
在具体实践中,池化处理pooling可以采用平均池化(n*768维的矩阵,取每一列的平均值作为对应列的特征值,所有特征值构成1*768维向量),也可以采用最大池化(取每一列的最大值作为对应列的特征值,所有特征值构成1*768维向量),实验表明采用最大池化时,得到的分类结果最好,所以本实施例提供的技术方案优选采用最大池化方法对预设的BERT模型输出的向量矩阵进行降维处理。
在具体实践中,池化处理pooling可以采用平均池化(n*768维的矩阵,取每一列的平均值作为对应列的特征值,所有特征值构成1*768维向量),也可以采用最大池化(取每一列的最大值作为对应列的特征值,所有特征值构成1*768维向量),实验表明采用最大池化时,得到的分类结果最好,所以本实施例提供的技术方案优选采用最大池化方法对第一BERT模型输出的向量矩阵进行降维处理。
步骤S13中将短文本段落的第一预设多维度向量输入到训练后的BERT模型中,得到第一目标特征向量,包括:
对短文本段落的第一预设多维度向量进行预设层数的编码,得到编码信息矩阵;
取编码信息矩阵的first token,并再经过一个全连接变换,得到第一目标特征向量。
例如,在第一个短文本段落向量(例如图5的seg1)前添加起始标识符CLS token(例如图5的seg0),作为一个Token mbedding,Token mbedding的总数量不超过预设内容长度(例如,seg0、seg1、seg2、seg3......segn的总数不超过512);
将Token mbedding,与用于指示短文本段落所属文本结构的Type Embedding,与用于指示短文本段落相对位置的Pos Embedding相加求和,得到输入向量矩阵(输入向量矩阵参见图5的E(C)、E1、E2、E3.....En)。
以剧本为例,假设分割时,正文对应123个短文段落,加上标题、背景、概况、角色介绍各一个短文段落,一共127个短文本段落,对应127个短文本段落向量,再加上CLS token一共128个Token Embedding,而训练后的BERT模型最多接收512个Token Embedding,所以不会超过训练后的BERT模型的最大长度限制。
假设输入向量矩阵为128*768维(每个Token Embedding是1*768维),对输入向量矩阵进行预设层数的编码,得到长文本128*768维的编码信息矩阵(编码信息矩阵参见图4的C、T1、T2、T3....Tn)。
优选地,对输入向量矩阵进行六层的编码,即Transformer Encoder一共为六个。这是因为,虽然现有BERT模型有12个编码模块,但在模型训练过程中,经过反复实验发现,将12个编码模块降为6个时,可以减少模型复杂度,防止模型过拟合,模型训练速度得到提升,得到的分类效果最好。因此,本实施例提供的技术方案,优选对输入向量矩阵进行六层的编码。
将128*768维的编码信息矩阵中起始标识符CLS token(即first token)对应的输出向量经过一个全连接变换(全连接变换用来把前边提取到的特征综合起来,即对firsttoken对应的输出向量进行一个加权和,通过线性变换映射到样本标记空间),得到768维的第一目标特征向量。
步骤S14、获取长文本的第二预设维度向量,第二预设维度向量包括语义向量。
在具体实践中,可以通过训练后的GBDT模型获取长文本的第二预设维度向量,包括:
获取待分类的长文本;
对所述长文本进行分词,构造所述长文本的原始一元模型特征;
将所述原始一元模型特征输入到训练后的GBDT模型,所述训练后的GBDT模型为每个分类标签建立第一预设数量的分类回归树,每棵分类回归树包括第二预设数量的叶子节点;所述原始一元模型特征落在叶子节点上的编号,构成所述长文本新的离散特征;
将所述新的离散特征与原始一元模型特征进行拼接,得到所述第二预设维度向量。
需要说明的是,所述第一预设数量和第二预设数量根据用户需要进行设置,或者根据实验数据设置,或者根据历史经验值进行设置。
本实施例中,分类标签数量为85,第一预设数量为100,第二预设数量为15。
所述构造所述长文本的原始一元模型特征(即原始unigram特征),包括:
1、读入文本;
2、分词(将一个句子划分成若干个词,转换为一个词的序列);
3、建立字典,将每个词映射到一个唯一的索引编号,得到文本的原始unigram特征,将文本从词的序列转换为索引的序列(原始unigram特征的维数最大值≤字典的维数)。
在具体实践中,可以利用sklearn工具完成上述步骤3。
将通过上述步骤1~3得到的unigram特征和分类标签数量输入到训练后的GBDT模型中。假设待分类的长文本的分类标签数量为85,那么GBDT模型就会为每一个分类标签建立100棵分类回归树,每颗树有15个叶子节点,共有85*100=8500棵树,一共有8500*15=127500个叶子节点,即通过GBDT模型得到的新特征向量为127500维。
可以理解的是,GBDT模型中每颗树代表一个分类特征,每个叶子节点代表一个子特征。例如,假设85个分类标签中有一个是校园爱情剧,对应校园爱情剧的分类特征共有100个,包括:地点、年龄、服装、道具.....等,那么针对每一个分类特征,GBDT模型会建立一棵分类回归树。以“地点”建立的分类回归树为例,上面的叶子节点包括:影院、宿舍、健身房、甜水店、溜冰场、阶梯教室.....等。输入的样本落在哪一个叶子节点上,那么对应该叶子节点的取值就为1,最后得到取值0/1的127500维的新特征向量。
将原始unigram特征与通过GBDT得到的新特征向量进行拼接,即为最终的GBDT离散特征。
步骤S15、将第一目标特征向量与第二预设维度向量进行拼接,并将拼接后的向量输入到预设分类器中,得到待分类的长文本的分类结果。
参见图6,由于第一目标特征向量与第二预设维度向量皆为向量,它们分别从不同维度对长文本的语义特征进行表达,因此,可以直接进行拼接,增强对待分类长文本的语义表示,提高分类结果准确率。
假设第一目标特征向量为768维的,第二预设维度向量为100维的,那么拼接后就是768+100=868维的。
分类器的实质是将输入向量中的x个实数(x为大于等于1的正整数,例如x=868)映射为y个取值范围为[0,1]的实数概率(1≤y≤x,y为正整数,例如y=85),从而得到长文本对应每个可能类别的概率值。
在具体实践中,分类器选取Sigmoid分类器或Softmax分类器。
Softmax分类器和Sigmoid分类器输出的分类结果(概率值)皆为多个,不同之处仅在于:Softmax分类器输出的多个分类结果之间是互斥的(即多个概率值相加为1),而Sigmoid分类器输出的多个分类结果不是互斥的(即多个概率值相加不为1)。例如,以长文本为剧本为例,用Sigmoid分类器分类后,最后得到属于爱情类的概率为0.8,属于都市类的概率为0.7,属于青春类的概率为0.6,属于悬疑类的概率为0.2,若系统阈值为0.5,则Sigmoid分类器判定该剧本属于都市、青春、爱情剧。
例如,以长文本为剧本为例,用Softmax分类器分类后,最后得到属于爱情类的概率为0.6,属于都市类的概率为0.3,属于青春类的概率为0.2,属于悬疑类的概率为0.1,由于属于爱情剧的概率值最大,则Softmax分类器判定该剧本属于爱情剧。
在具体实践中,可以根据长文本的类型选择是适用Sigmoid分类器,还是Softmax分类器。例如,若长文本是新闻,可以选择Softmax分类器;若长文本时小说或者剧本,可以选择Sigmoid分类器。
可以理解的是,本实施例提供的技术方案,通过对长文本进行分割,将长文本分割为多个短文本段落,从而满足了BERT分类模型的输入长度要求。
由于不同的文本结构包含的概述性信息不同,这些概述性信息对最终的文本分类帮助很大,本实施例提出的这种长文本分类方法,最大化完整保留了这些概述性信息,减少了长文本分割时因结构信息丢失及语义信息割裂带来的分类准确率下降的问题。
进一步地,由于本实施例提供的技术方案,分别通过不同的模型获取第一目标特征向量与第二预设维度向量,并将第一目标特征向量与第二预设维度向量拼接后,才送入分类器进行分类,相比仅用训练后的BERT模型做分类,由于增加了对待分类长文本的语义表示维度,所以可以提高分类结果的准确度,用户体验度好、满意度高。
实施例二
图7根据一示例性实施例示出了一种长文本分类系统100的示意框图,如图7所示,该系统100包括:
获取模块101,用于获取待分类的长文本;
分割模块102,用于根据长文本的文本结构,将所述长文本分割为多个短文本段落,每个短文本段落的内容长度不超过预设内容长度;
所述获取模块101,还用于获取短文本段落的第一预设多维度向量,并将短文本段落的第一预设多维度向量输入到训练后的BERT模型中,得到第一目标特征向量;还用于获取长文本的第二预设维度向量,第二预设维度向量包括语义向量;
拼接模块103,用于将第一目标特征向量与第二预设维度向量进行拼接,并将拼接后的向量输入到预设分类器中,得到待分类的长文本的分类结果。
需要说明的是,由于上述各模块的实现方式及有益效果可参考前述实施例中对应步骤的详细阐述,本实施例不再赘述。
本实施例提供的技术方案,通过对待分类的长文本进行分割,使得分割后的每个短文本段落的内容长度不超过预设内容长度,适应了BERT模型对输入文本长度的要求。另外,由于是根据长文本的文本结构对长文本进行分割,最大化完整保留了不同文本结构中的概述性信息,减少了长文本分割时因结构信息丢失及语义信息割裂带来的分类准确率下降的问题。
进一步地,由于本实施例提供的技术方案,分别通过不同的模型获取第一目标特征向量与第二预设维度向量,并将第一目标特征向量与第二预设维度向量拼接后,才送入分类器进行分类,相比仅用训练后的BERT模型做分类,由于增加了对待分类长文本的语义表示维度,所以可以提高分类结果的准确度,用户体验度好、满意度高。
实施例三
根据一示例性实施例示出的一种电子设备,其特征在于,包括:无线通信模块、处理器和存储器,其中,存储器中存储有程序指令;
处理器用于执行存储器中存储的程序指令,执行如实施例一的方法。
需要说明的是,电子设备包括但不限于:智能终端(例如,手机、平板电脑、智能手表等)和计算机设备。
其中,无线通信模块包括但不限于:WCDMA、GSM、CDMA和/或LTE通讯模块。无线的方式主要有红外线技术、ZigBee技术、蓝牙技术、低频无线电技术和2.4G射频技术等短距离无线通信技术。
处理器包括但不限于:CPU、单片机、PLC控制器、FPGA控制器等。
存储器可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)和/或高速缓存存储器;还可以包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。存储器可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
本实施例提供的技术方案,通过对待分类的长文本进行分割,使得分割后的每个短文本段落的内容长度不超过预设内容长度,适应了BERT模型对输入文本长度的要求。另外,由于是根据长文本的文本结构对长文本进行分割,最大化完整保留了不同文本结构中的概述性信息,减少了长文本分割时因结构信息丢失及语义信息割裂带来的分类准确率下降的问题。
进一步地,由于本实施例提供的技术方案,分别通过不同的模型获取第一目标特征向量与第二预设维度向量,并将第一目标特征向量与第二预设维度向量拼接后,才送入分类器进行分类,相比仅用训练后的BERT模型做分类,由于增加了对待分类长文本的语义表示维度,所以可以提高分类结果的准确度,用户体验度好、满意度高。
实施例四
根据一示例性实施例示出的一种计算机可读存储介质,其特征在于,其上存储有可擦写的计算机程序;
当计算机程序在计算机设备上运行时,使得计算机设备执行实施例一的方法。
本实施例公开的计算机可读存储介质包括但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
本实施例提供的技术方案,通过对待分类的长文本进行分割,使得分割后的每个短文本段落的内容长度不超过预设内容长度,适应了BERT模型对输入文本长度的要求。另外,由于是根据长文本的文本结构对长文本进行分割,最大化完整保留了不同文本结构中的概述性信息,减少了长文本分割时因结构信息丢失及语义信息割裂带来的分类准确率下降的问题。
进一步地,由于本实施例提供的技术方案,分别通过不同的模型获取第一目标特征向量与第二预设维度向量,并将第一目标特征向量与第二预设维度向量拼接后,才送入分类器进行分类,相比仅用训练后的BERT模型做分类,由于增加了对待分类长文本的语义表示维度,所以可以提高分类结果的准确度,用户体验度好、满意度高。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (11)

1.一种长文本分类方法,其特征在于,包括:
获取待分类的长文本;
根据长文本的文本结构,将所述长文本分割为多个短文本段落,每个短文本段落的内容长度不超过预设内容长度;
获取所述短文本段落的第一预设多维度向量,并将所述短文本段落的第一预设多维度向量输入到训练后的BERT模型中,得到第一目标特征向量;
获取所述长文本的第二预设维度向量,所述第二预设维度向量包括语义向量;
将所述第一目标特征向量与所述第二预设维度向量进行拼接,并将拼接后的向量输入到预设分类器中,得到所述待分类的长文本的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述第一预设多维度向量,包括:
短文本段落向量,用于表征所述短文本段落的语义特征;
短文本类型向量,用于指示所述短文本段落所属文本结构;
短文本位置向量;用于指示所述短文本段落的相对位置;
每个所述短文本段落,对应一个所述短文本段落向量、一个所述短文本类型向量和一个所述短文本位置向量。
3.根据权利要求2所述的方法,其特征在于,所述短文本段落向量,通过预设的BERT模型获取,具体为:
将分割后的各短文本段落依次输入到预设的BERT模型,得到各短文本段落对应的短文本段落向量。
4.根据权利要求1所述的方法,其特征在于,所述将所述短文本段落的第一预设多维度向量输入到训练后的BERT模型中,得到第一目标特征向量,包括:
对所述短文本段落的第一预设多维度向量进行预设层数的编码,得到编码信息矩阵;
取所述编码信息矩阵的first token,并再经过一个全连接变换,得到第一目标特征向量。
5.根据权利要求4所述的方法,其特征在于,
所述预设层数为六层。
6.根据权利要求1~5任一项所述的方法,其特征在于,
所述长文本包括:剧本;
所述长文本的文本结构类型包括:标题、背景、概况、角色介绍、正文;
每一种文本结构对应至少一个短文本段落。
7.根据权利要求6所述的方法,其特征在于,所述根据长文本的文本结构,将所述长文本分割为多个短文本段落,包括:
将正文按句分割为多个短文本段落,每个所述短文本段落包含完整的句子,且每个所述短文本段落的内容长度不超过预设内容长度;
将标题、背景、概况、角色介绍各分割为一个短文本段落,每个所述短文本段落的内容长度不超过预设内容长度。
8.根据权利要求1~5任一项所述的方法,其特征在于,所述获取所述长文本的第二预设维度向量,具体为:
通过训练后的GBDT模型获取所述长文本的第二预设维度向量,包括:
获取待分类的长文本;
对所述长文本进行分词,构造所述长文本的原始一元模型特征;
将所述原始一元模型特征输入到训练后的GBDT模型,所述训练后的GBDT模型为每个分类标签建立第一预设数量的分类回归树,每棵分类回归树包括第二预设数量的叶子节点;所述原始一元模型特征落在叶子节点上的编号,构成所述长文本新的离散特征;
将所述新的离散特征与原始一元模型特征进行拼接,得到所述第二预设维度向量。
9.一种长文本分类系统,其特征在于,包括:
获取模块,用于获取待分类的长文本;
分割模块,用于根据长文本的文本结构,将所述长文本分割为多个短文本段落,每个短文本段落的内容长度不超过预设内容长度;
获取模块,用于获取所述短文本段落的第一预设多维度向量,并将所述短文本段落的第一预设多维度向量输入到训练后的BERT模型中,得到第一目标特征向量;
还用于获取所述长文本的第二预设维度向量,所述第二预设维度向量包括语义向量;
拼接模块,用于将所述第一目标特征向量与所述第二预设维度向量进行拼接,并将拼接后的向量输入到预设分类器中,得到所述待分类的长文本的分类结果。
10.一种电子设备,其特征在于,包括:无线通信模块、处理器和存储器,其中,所述存储器中存储有程序指令;
所述处理器用于执行存储器中存储的程序指令,执行如权利要求1~8任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,其上存储有可擦写的计算机程序;
当所述计算机程序在计算机设备上运行时,使得所述计算机设备执行如权利要求1~8任一项所述的方法。
CN202110815723.7A 2021-07-19 2021-07-19 长文本分类方法、系统、电子设备、计算机可读存储介质 Active CN113553848B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110815723.7A CN113553848B (zh) 2021-07-19 2021-07-19 长文本分类方法、系统、电子设备、计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110815723.7A CN113553848B (zh) 2021-07-19 2021-07-19 长文本分类方法、系统、电子设备、计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113553848A true CN113553848A (zh) 2021-10-26
CN113553848B CN113553848B (zh) 2024-02-02

Family

ID=78103420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110815723.7A Active CN113553848B (zh) 2021-07-19 2021-07-19 长文本分类方法、系统、电子设备、计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113553848B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114242113A (zh) * 2021-12-16 2022-03-25 北京百度网讯科技有限公司 语音检测方法、训练方法、装置和电子设备
CN114510563A (zh) * 2022-02-18 2022-05-17 杭州数梦工场科技有限公司 一种摘要文本抽取方法及装置
CN114881040A (zh) * 2022-05-12 2022-08-09 桂林电子科技大学 一种段落的语义信息处理方法、装置及存储介质
CN115827856A (zh) * 2022-07-26 2023-03-21 国家国防科技工业局军工项目审核中心 一种基于计算机的军工领域消息的传递方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080312904A1 (en) * 2007-06-18 2008-12-18 International Business Machines Corporation Sub-Model Generation to Improve Classification Accuracy
CN110188202A (zh) * 2019-06-06 2019-08-30 北京百度网讯科技有限公司 语义关系识别模型的训练方法、装置及终端
CN111241234A (zh) * 2019-12-27 2020-06-05 北京百度网讯科技有限公司 文本分类方法及装置
CN111400492A (zh) * 2020-02-17 2020-07-10 合肥工业大学 基于sfm-dcnn的层次特征文本分类方法和系统
CN111475622A (zh) * 2020-04-08 2020-07-31 广东工业大学 一种文本分类方法、装置、终端及存储介质
CN111966826A (zh) * 2020-07-22 2020-11-20 中国科学院计算技术研究所 一种构建文本分类系统的方法、系统、介质及电子设备
US20200387675A1 (en) * 2019-06-05 2020-12-10 Refinitiv Us Organization Llc Machine-learning natural language processing classifier
CN112183111A (zh) * 2020-09-28 2021-01-05 亚信科技(中国)有限公司 长文本语义相似度匹配方法、装置、电子设备及存储介质
CN112307208A (zh) * 2020-11-05 2021-02-02 Oppo广东移动通信有限公司 长文本的分类方法、终端及计算机存储介质
WO2021068339A1 (zh) * 2019-10-11 2021-04-15 平安科技(深圳)有限公司 文本分类方法、装置及计算机可读存储介质
CN112818123A (zh) * 2021-02-08 2021-05-18 河北工程大学 一种文本的情感分类方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080312904A1 (en) * 2007-06-18 2008-12-18 International Business Machines Corporation Sub-Model Generation to Improve Classification Accuracy
US20200387675A1 (en) * 2019-06-05 2020-12-10 Refinitiv Us Organization Llc Machine-learning natural language processing classifier
CN110188202A (zh) * 2019-06-06 2019-08-30 北京百度网讯科技有限公司 语义关系识别模型的训练方法、装置及终端
WO2021068339A1 (zh) * 2019-10-11 2021-04-15 平安科技(深圳)有限公司 文本分类方法、装置及计算机可读存储介质
CN111241234A (zh) * 2019-12-27 2020-06-05 北京百度网讯科技有限公司 文本分类方法及装置
CN111400492A (zh) * 2020-02-17 2020-07-10 合肥工业大学 基于sfm-dcnn的层次特征文本分类方法和系统
CN111475622A (zh) * 2020-04-08 2020-07-31 广东工业大学 一种文本分类方法、装置、终端及存储介质
CN111966826A (zh) * 2020-07-22 2020-11-20 中国科学院计算技术研究所 一种构建文本分类系统的方法、系统、介质及电子设备
CN112183111A (zh) * 2020-09-28 2021-01-05 亚信科技(中国)有限公司 长文本语义相似度匹配方法、装置、电子设备及存储介质
CN112307208A (zh) * 2020-11-05 2021-02-02 Oppo广东移动通信有限公司 长文本的分类方法、终端及计算机存储介质
CN112818123A (zh) * 2021-02-08 2021-05-18 河北工程大学 一种文本的情感分类方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114242113A (zh) * 2021-12-16 2022-03-25 北京百度网讯科技有限公司 语音检测方法、训练方法、装置和电子设备
CN114242113B (zh) * 2021-12-16 2023-08-08 北京百度网讯科技有限公司 语音检测方法、训练方法、装置和电子设备
CN114510563A (zh) * 2022-02-18 2022-05-17 杭州数梦工场科技有限公司 一种摘要文本抽取方法及装置
CN114881040A (zh) * 2022-05-12 2022-08-09 桂林电子科技大学 一种段落的语义信息处理方法、装置及存储介质
CN114881040B (zh) * 2022-05-12 2022-12-06 桂林电子科技大学 一种段落的语义信息处理方法、装置及存储介质
CN115827856A (zh) * 2022-07-26 2023-03-21 国家国防科技工业局军工项目审核中心 一种基于计算机的军工领域消息的传递方法

Also Published As

Publication number Publication date
CN113553848B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN107085581B (zh) 短文本分类方法和装置
WO2023065544A1 (zh) 意图分类方法、装置、电子设备及计算机可读存储介质
CN113553848A (zh) 长文本分类方法、系统、电子设备、计算机可读存储介质
CN111160031A (zh) 一种基于词缀感知的社交媒体命名实体识别方法
CN110163181B (zh) 手语识别方法及装置
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN110619051B (zh) 问题语句分类方法、装置、电子设备及存储介质
CN112417153B (zh) 文本分类方法、装置、终端设备和可读存储介质
CN112101041A (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN111291195A (zh) 一种数据处理方法、装置、终端及可读存储介质
CN113177412A (zh) 基于bert的命名实体识别方法、系统、电子设备及存储介质
CN115495555A (zh) 一种基于深度学习的文献检索方法和系统
CN112084435A (zh) 搜索排序模型训练方法及装置、搜索排序方法及装置
CN114328807A (zh) 一种文本处理方法、装置、设备及存储介质
CN115203421A (zh) 一种长文本的标签生成方法、装置、设备及存储介质
CN114529903A (zh) 文本细化网络
CN112101031A (zh) 一种实体识别方法、终端设备及存储介质
CN116304066A (zh) 一种基于提示学习的异质信息网络节点分类方法
CN113032541A (zh) 一种基于bert并融合句群检索的答案抽取方法
CN113553412A (zh) 问答处理方法、装置、电子设备和存储介质
CN110717316B (zh) 字幕对话流的主题分割方法及装置
CN113076720A (zh) 长文本的分段方法及装置、存储介质、电子装置
CN114792092B (zh) 一种基于语义增强的文本主题抽取方法及装置
CN110941958A (zh) 一种文本类目标注方法、装置、电子设备及存储介质
CN110874408A (zh) 模型训练方法、文本识别方法、装置及计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant