CN116304064A - 一种基于抽取式的文本分类方法 - Google Patents

一种基于抽取式的文本分类方法 Download PDF

Info

Publication number
CN116304064A
CN116304064A CN202310574930.7A CN202310574930A CN116304064A CN 116304064 A CN116304064 A CN 116304064A CN 202310574930 A CN202310574930 A CN 202310574930A CN 116304064 A CN116304064 A CN 116304064A
Authority
CN
China
Prior art keywords
text
text classification
entity
label
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310574930.7A
Other languages
English (en)
Inventor
崔丙剑
程龙龙
曹琉
田野
袁丁
刘邈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongdian Yunnao Tianjin Technology Co ltd
Original Assignee
Zhongdian Yunnao Tianjin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongdian Yunnao Tianjin Technology Co ltd filed Critical Zhongdian Yunnao Tianjin Technology Co ltd
Priority to CN202310574930.7A priority Critical patent/CN116304064A/zh
Publication of CN116304064A publication Critical patent/CN116304064A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于抽取式的文本分类方法,涉及到文本分类技术领域,包括S1:样本构造;S2:基于深度预训练模型的实体识别。本发明把文本分类任务转化成实体识别任务,通过实体识别模型从文本中抽取文本的类别标签,把多种类型的文本分类任务转化成统一的实体识别任务,避免了传统方法需要为不同的文本分类任务分别建模的问题;本发明为单标签文本分类任务、多标签文本分类任务和层级多标签文本分类任务分别设计了抽取式的样本生成方式,输入内容包含了文本内容和标签内容,标签不再是独立于文本的符号,模型通过注意力机制可以更好地学习标签与标签之间、标签与文本之间的语义关系,从而实现更好的分类效果。

Description

一种基于抽取式的文本分类方法
技术领域
本发明涉及文本分类技术领域,特别涉及一种基于抽取式的文本分类方法。
背景技术
文本分类任务通常是指在给定的分类体系中,将文本分到其中某个或某几个类别上。具体还可细分为以下几种:
单标签文本分类
将待分类文本分到预设的多个类别中的某一个类别上。
多标签文本分类
将待分类文本分到预设的多个类别中的某一个或几个类别上。
层级多标签文本分类
将待分类文本分到预设的多层级类别中的某一个或几个类别上。
目前主流的文本分类方法有以下几种方案:
一、基于统计学习的文本分类方法
该方法首先需要人工对文本进行特征提取,选择合适的关键词作为该文本的特征词,然后把特征词用OneHot或TFIDF等方式进行编码得到特征向量,最后再用逻辑回归、支持向量机等机器学习算法的方法得出该特征向量之于各标签的概率。
二、基于深度学习的文本分类方法
该方法以文本分词后的离散信息作为输入,然后经过lstm、bert等深度神经网络,并通过反向传播算法更新网络参数,最后通过sigmoid或softmax输出文本属于不同类别的概率。
三、基于关键词相似度的文本分类方法(CN202111666994.7)
该方法首先对不同类别的文本总结出其关键词集合,然后对于每个文本通过实体识别模型抽取其中的关键词,分别计算所提取到的关键词与各文本类别的自定义关键词的相似度,取最高相似度,并判断最高相似度是否大于预设阈值,若大于则认为该待分类文本属于该最大相似度所对应的文本类别;否则,待分类文本不属于当前已有文本类别任何一个类别。
以上几种方法对于单标签文本分类、多标签文本分类、层级多标签文本分类等任务需要分别建模,缺乏一个能实现这三种分类场景的统一架构的方法。
且几种方法在构建文本分类模型时,均把标签当作独立的符号,模型的输入信息只有文本内容,模型无法学习标签与文本、标签与标签之间的语义关系,因此分类效果难以保证。
因此,提出一种基于抽取式的文本分类方法来解决上述问题很有必要。
发明内容
本发明的目的在于提供一种基于抽取式的文本分类方法,以解决缺乏一个能实现三种分类场景的统一架构的方法和分类效果难以保证的问题。
为实现上述目的,本发明提供如下技术方案:一种基于抽取式的文本分类方法,包括以下步骤:
S1:样本构造,对于某文本分类任务,假设预定义的类别标签为Lable=[l1,l2,...ln],对于某个具体文本text,假设其类别标签为l1和l2,把Lable与文本内容text拼接得到新的文本text2,这样文本text的类别标签l1和l2就存在于新构造的文本text2中,因此就可以使用实体识别的方式从text2中抽取到文本的类别;
S2:基于深度预训练模型的实体识别,基于深度预训练语言模型BERT构建实体抽取模型,对文本text2中的每个字符进行分类,以确定其属于BIO中的哪种类别,因此需要BERT输出每个字符的向量,然后通过全连接网络和softmax得到每个字符属于BIO三种类型的概率,详细的模型计算步骤如下:
a.在text2首尾分别添加“[CLS]”和“[SEP]”标志,然后进行切分,得到序列X=[[CLS],x1,x2,x3,...,xn,[SEP]];
b.把序列X输入到BERT模型,然后取BERT输出后的所有字符的向量E=[e[CLS],e1,e2,e3,...,en,e[SEP]];
c.把文本中每个字符的表示向量E输入全连接神经网络,并经过softmax层后输出,得到该字符属于每种实体的概率P=[pB,pI,pO];
d.计算每个字符属于每种实体的概率P与真实的实体标签之间的交叉熵损失loss;
e.对loss进行反向传播,通过梯度下降法更新模型参数。
优选的,所述S1中text2由原始的text和Lable拼接后形成,对于单标签文本分类任务和多标签文本分类任务,把预定义的多个标签用“,”连接后再通过一个分隔符“[SEP]”与文本内容拼接;对于层级多标签文本分类任务,首先把某个标签的子标签用“[]”包括起来,多个标签之间再用“,”连接,预定义的第一层级标签为“教育”、“体育”和“旅游”,“教育”包含子标签“中小学”和“大学”,“体育”包含子标签“足球”和“篮球”,“旅游”包含子标签“国内游”和“国外游”,经过处理后得到“教育[大学,中小学],体育[篮球,足球],旅游[国内游,国外游]”,然后再用分隔符“[SEP]”与文本内容拼接。
优选的,所述S2中实体标签采用BIO标注模式,“B”表示实体的开始,“I”表示实体的中间或者结尾,“O”表示不属于实体。
本发明的技术效果和优点:
本发明把文本分类任务转化成实体识别任务,通过实体识别模型从文本中抽取文本的类别标签,把多种类型的文本分类任务转化成统一的实体识别任务,避免了传统方法需要为不同的文本分类任务分别建模的问题;
本发明为单标签文本分类任务、多标签文本分类任务和层级多标签文本分类任务分别设计了抽取式的样本生成方式,输入内容包含了文本内容和标签内容,标签不再是独立于文本的符号,模型通过注意力机制可以更好地学习标签与标签之间、标签与文本之间的语义关系,从而实现更好的分类效果。
附图说明
图1为本发明基于抽取式的文本分类方法步骤图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了如图1所示的一种基于抽取式的文本分类方法,首先把文本分类任务转化为实体识别任务,三种文本分类任务经过转化后成为一个统一的实体识别任务,然后用一个基于深度预训练语言模型的实体识别算法进行实体识别从而完成文本分类任务。
该方法实现了对不同的文本分类算法统一建模,避免了传统的文本分类算法需要针对不同任务分别建模的问题;且该方法的输入包含了文本内容和标签内容,标签不再是独立于文本的符号,模型通过注意力机制可以更好地学习标签与标签之间、标签与文本之间的关系,从而实现更好的分类效果。
具体步骤包括以下几方面:
样本构造
对于某文本分类任务,假设预定义的类别标签为Lable=[l1,l2,...ln],对于某个具体文本text,假设其类别标签为l1和l2,把Lable与文本内容text拼接得到新的文本text2,这样文本text的类别标签l1和l2就存在于新构造的文本text2中,因此就可以使用实体识别的方式从text2中抽取到文本的类别。
如下表所示,左侧列是文本分类任务及预定义的类别标签,中间列为普通文本分类标注格式,右侧列是基于抽取式的文本分类标注格式,具体包括:
text
text2由原始的text和Lable拼接后形成。对于单标签文本分类任务和多标签文本分类任务,把预定义的多个标签用“,”连接后再通过一个分隔符“[SEP]”与文本内容拼接;对于层级多标签文本分类任务,首先把某个标签的子标签用“[]”包括起来,多个标签之间再用“,”连接,如下表层级多标签文本分类所示,预定义的第一层级标签为“教育”、“体育”和“旅游”,“教育”包含子标签“中小学”和“大学”,“体育”包含子标签“足球”和“篮球”,“旅游”包含子标签“国内游”和“国外游”,经过处理后得到“教育[大学,中小学],体育[篮球,足球],旅游[国内游,国外游]”,然后再用分隔符“[SEP]”与文本内容拼接。
Lable
采用BIO标注模式,“B”表示实体的开始,“I”表示实体的中间或者结尾,“O”表示不属于实体。如“如果2018骑士夺冠,詹姆斯这个冠军的含金量有多大?[SEP]教育,体育,旅游”,要抽取的标签是“体育”,其起始位置分别为30和31,因此Lable中第30的位置为“B”,第31的位置为“I”,其它所有位置都为“O”。
文本分类任务及预定义的类别标签 普通文本分类标注格式 基于抽取式的文本分类标注格式
单标签文本分类(预设文本类别为:教育,体育,旅游) {"text":"如果2018骑士夺冠,詹姆斯这个冠军的含金量有多大?","Lable":"体育"} {"text":"如果2018骑士夺冠,詹姆斯这个冠军的含金量有多大?[SEP]教育,体育,旅游","Lable":[O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,B,I,O,O,O]}
多标签文本分类(预设文本类别为:教育,体育,旅游) {"text":"高中体育需要到什么级别可以去北体?","Lable":["教育,体育"]} {"text":"高中体育需要到什么级别可以去北体?[SEP]教育,体育,旅游","Lable":[O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,B,I,O,B,I,O,O,O]}
层级多标签文本分类(预设文本类别为:教育[大学,中小学],体育[足球,篮球],旅游[国内游,国外游]) {"text":"中小学培训行业的有未来吗?","Lable":["教育/中小学"]} {"text":"中小学培训行业的有未来吗?[SEP]教育[大学,中小学],体育[篮球,足球],旅游[国内游,国外游]","Lable":[O,O,O,O,O,O,O,O,O,O,O,O,O,O,B,I,O,O,O,O,B,I,I,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O,O]}
基于深度预训练模型的实体识别
基于深度预训练语言模型BERT构建实体抽取模型,对文本text2中的每个字符进行分类,以确定其属于BIO中的哪种类别,因此需要BERT输出每个字符的向量,然后通过全连接网络和softmax得到每个字符属于BIO三种类型的概率。详细的模型计算步骤如下:
a.在text2首尾分别添加“[CLS]”和“[SEP]”标志,然后进行切分,得到序列X=[[CLS],x1,x2,x3,...,xn,[SEP]];
b.把序列X输入到BERT模型,然后取BERT输出后的所有字符的向量E=[e[CLS],e1,e2,e3,...,en,e[SEP]];
c.把文本中每个字符的表示向量E输入全连接神经网络,并经过softmax层后输出,得到该字符属于每种实体的概率P=[pB,pI,pO];
d.计算每个字符属于每种实体的概率P与真实的实体标签之间的交叉熵损失loss。
e.对loss进行反向传播,通过梯度下降法更新模型参数。

Claims (3)

1.一种基于抽取式的文本分类方法,其特征在于:包括以下步骤:
S1:样本构造,对于某文本分类任务,假设预定义的类别标签为Lable=[l1,l2,...ln],对于某个具体文本text,假设其类别标签为l1和l2,把Lable与文本内容text拼接得到新的文本text2,这样文本text的类别标签l1和l2就存在于新构造的文本text2中,因此就可以使用实体识别的方式从text2中抽取到文本的类别;
S2:基于深度预训练模型的实体识别,基于深度预训练语言模型BERT构建实体抽取模型,对文本text2中的每个字符进行分类,以确定其属于BIO中的哪种类别,因此需要BERT输出每个字符的向量,然后通过全连接网络和softmax得到每个字符属于BIO三种类型的概率,详细的模型计算步骤如下:
a.在text2首尾分别添加“[CLS]”和“[SEP]”标志,然后进行切分,得到序列X=[[CLS],x1,x2,x3,...,xn,[SEP]];
b.把序列X输入到BERT模型,然后取BERT输出后的所有字符的向量E=[e[CLS],e1,e2,e3,...,en,e[SEP]];
c.把文本中每个字符的表示向量E输入全连接神经网络,并经过softmax层后输出,得到该字符属于每种实体的概率P=[pB,pI,pO];
d.计算每个字符属于每种实体的概率P与真实的实体标签之间的交叉熵损失loss;
e.对loss进行反向传播,通过梯度下降法更新模型参数。
2.根据权利要求1所述的一种基于抽取式的文本分类方法,其特征在于:所述S1中text2由原始的text和Lable拼接后形成,对于单标签文本分类任务和多标签文本分类任务,把预定义的多个标签用“,”连接后再通过一个分隔符“[SEP]”与文本内容拼接;对于层级多标签文本分类任务,首先把某个标签的子标签用“[]”包括起来,多个标签之间再用“,”连接,然后再用分隔符“[SEP]”与文本内容拼接。
3.根据权利要求1所述的一种基于抽取式的文本分类方法,其特征在于:所述S2中实体标签采用BIO标注模式,“B”表示实体的开始,“I”表示实体的中间或者结尾,“O”表示不属于实体。
CN202310574930.7A 2023-05-22 2023-05-22 一种基于抽取式的文本分类方法 Pending CN116304064A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310574930.7A CN116304064A (zh) 2023-05-22 2023-05-22 一种基于抽取式的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310574930.7A CN116304064A (zh) 2023-05-22 2023-05-22 一种基于抽取式的文本分类方法

Publications (1)

Publication Number Publication Date
CN116304064A true CN116304064A (zh) 2023-06-23

Family

ID=86818923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310574930.7A Pending CN116304064A (zh) 2023-05-22 2023-05-22 一种基于抽取式的文本分类方法

Country Status (1)

Country Link
CN (1) CN116304064A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116522233A (zh) * 2023-07-03 2023-08-01 国网北京市电力公司 一种可研文档要点评审内容抽取分类方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073677A (zh) * 2017-11-02 2018-05-25 中国科学院信息工程研究所 一种基于人工智能的多级文本多标签分类方法及系统
CN112860889A (zh) * 2021-01-29 2021-05-28 太原理工大学 一种基于bert的多标签分类方法
CN113010678A (zh) * 2021-03-17 2021-06-22 北京百度网讯科技有限公司 分类模型的训练方法、文本分类方法及装置
CN113688911A (zh) * 2021-08-26 2021-11-23 安徽咪鼠科技有限公司 一种基于softmax的文本多标签分类方法
CN114021658A (zh) * 2021-11-10 2022-02-08 北京交通大学 一种命名实体识别模型的训练方法、应用方法及其系统
CN114020920A (zh) * 2021-11-26 2022-02-08 上海交通大学 一种基于图卷积网络的多标签文本分类方法
CN114218945A (zh) * 2021-11-22 2022-03-22 深圳价值在线信息科技股份有限公司 实体识别方法、装置、服务器及存储介质
US20220138423A1 (en) * 2020-11-02 2022-05-05 Chengdu Wang'an Technology Development Co., Ltd. Deep learning based text classification

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073677A (zh) * 2017-11-02 2018-05-25 中国科学院信息工程研究所 一种基于人工智能的多级文本多标签分类方法及系统
US20220138423A1 (en) * 2020-11-02 2022-05-05 Chengdu Wang'an Technology Development Co., Ltd. Deep learning based text classification
CN112860889A (zh) * 2021-01-29 2021-05-28 太原理工大学 一种基于bert的多标签分类方法
CN113010678A (zh) * 2021-03-17 2021-06-22 北京百度网讯科技有限公司 分类模型的训练方法、文本分类方法及装置
CN113688911A (zh) * 2021-08-26 2021-11-23 安徽咪鼠科技有限公司 一种基于softmax的文本多标签分类方法
CN114021658A (zh) * 2021-11-10 2022-02-08 北京交通大学 一种命名实体识别模型的训练方法、应用方法及其系统
CN114218945A (zh) * 2021-11-22 2022-03-22 深圳价值在线信息科技股份有限公司 实体识别方法、装置、服务器及存储介质
CN114020920A (zh) * 2021-11-26 2022-02-08 上海交通大学 一种基于图卷积网络的多标签文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
顾天飞;彭敦陆;: "基于配对排序损失的文本多标签学习算法", 小型微型计算机系统, no. 10 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116522233A (zh) * 2023-07-03 2023-08-01 国网北京市电力公司 一种可研文档要点评审内容抽取分类方法及系统

Similar Documents

Publication Publication Date Title
CN111538835B (zh) 一种基于知识图谱的社交媒体情感分类方法与装置
CN111708882B (zh) 基于Transformer的中文文本信息缺失的补全方法
CN111046179B (zh) 一种面向特定领域开放网络问句的文本分类方法
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
CN112115238A (zh) 一种基于bert和知识库的问答方法和系统
CN111274804A (zh) 基于命名实体识别的案件信息提取方法
CN108829823A (zh) 一种文本分类方法
CN112347255B (zh) 基于图网络的标题和正文结合的文本分类方法
CN113515632A (zh) 基于图路径知识萃取的文本分类方法
CN112364132A (zh) 基于依存句法的相似度计算模型和系统及搭建系统的方法
CN109753650A (zh) 一种融合多特征的老挝语人名地名实体识别方法
CN113051922A (zh) 一种基于深度学习的三元组抽取方法及系统
CN114238653A (zh) 一种编程教育知识图谱构建、补全与智能问答的方法
CN116304064A (zh) 一种基于抽取式的文本分类方法
CN111967267A (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
CN115858750A (zh) 基于自然语言处理的电网技术标准智能问答方法及系统
CN113312918B (zh) 融合部首向量的分词和胶囊网络法律命名实体识别方法
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN112163069A (zh) 一种基于图神经网络节点特征传播优化的文本分类方法
CN116483990A (zh) 一种基于大数据的互联网新闻内容自动生成方法
CN115759102A (zh) 一种中国诗酒文化命名实体识别方法
CN115481636A (zh) 一种面向技术文献的技术功效矩阵构建方法
CN113342982B (zh) 融合RoBERTa和外部知识库的企业行业分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20230623