CN114579737A - 一种建立短文本多层级分类模型的方法和系统 - Google Patents
一种建立短文本多层级分类模型的方法和系统 Download PDFInfo
- Publication number
- CN114579737A CN114579737A CN202111636972.6A CN202111636972A CN114579737A CN 114579737 A CN114579737 A CN 114579737A CN 202111636972 A CN202111636972 A CN 202111636972A CN 114579737 A CN114579737 A CN 114579737A
- Authority
- CN
- China
- Prior art keywords
- level
- model
- optimal
- training
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种建立短文本多层级分类模型的方法和系统,所述方法包括:对同一份短文本数据集,按照设置的不同层级的短文本类别标签进行标注后生成的不同层级的标注数据集,并将其作为输入,对基于公开的预训练模型Bert base后接全连接层建立的分类模型分层级进行训练,生成不同层级的分类模型,并在训练下一层级分类模型时,将上一层级经过微调的预训练模型Bert base的部分训练参数迁移到下一层级初始预训练模型Bert base的对应部分,最后将生成的多层级的分类模型进行组合生成最终的分类模型。所述方法和系统可有效扩增每种类别下的数据总量,解决模型训练的数据稀疏度问题;并对低层级的分类学习,通过迁移高层级分类模型的通用参数提升训练效果。
Description
技术领域
本发明涉及文本分类领域,尤其是一种建立短文本多层级分类模型的方法和系统。
背景技术
近年来,随着在线社交网络应用的爆炸式增长,短文本分类技术得到了广泛的研究,如微博、聊天信息、新闻主题、观点评论、问题文本、手机短信、文献摘要等。相较于长文本,短文本缺乏主题性,解决的方式可以从文本库、专业词典以及同义词典提取的知识扩展短文本信息,然而由于专业词典以及同义词典的领域独立性,导致外部知识的数据分布与某些特殊领域收集的测试数据分布差异较大,从而影响分类的整体性能。随着深度学习技术的发展,一些深度网络模型在短文本分类应用中取得了较好的结果,如TextCNN,LSTM等,但目前主流的网络模型并没有考虑文本所属类别的层次性,如“猫”,“狗”属于动物,“兰花”,“菊花”属于植物,若简单的忽略高层级类别(动物,植物),网络只学习最底层的类别分类任务,会出现将“动物”预测为“植物”的高层级跨类别错误,且面临类别多导致的数据稀疏问题,从而降低网络预测精度。
发明内容
为了解决现有技术中对短文本分类只学习最底层的类别分类任务,会出现高层级跨类别错误,并且因面临类别过多导致的数据稀疏等问题,本发明的实施例提供了一种建立短文本多层级分类模型的方法和系统。
根据本发明实施例的一个方面,提供了一种建立短文本多层级分类模型的方法,所述方法包括:
步骤101、获取第一层级标注数据集,其中,所述第一层级标注数据集是按照预先设置的第一层级类别标签对短文本数据集中的每个短文本进行标注后生成的数据集;
步骤102、将第一层级标注数据集输入初始第一层级分类模型进行模型训练,生成最优第一层级分类模型,其中,所述初始第一层级分类模型是公开的预训练模型Bert base后接初始第一层级全连接层,所述最优第一层级分类模型是最优第一层级预训练模型Bertbase后接最优第一层级全连接层,所述最优第一层级预训练模型Bert base是对公开的预训练模型Bert base进行微调得到的预训练模型Bert base,所述最优第一层级全连接层是对初始第一层级全连接层调整参数后得到的全连接层;
步骤103、获取第二层级标注数据集,其中,所述第二层级标注数据集是是按照预先设置的第二层级类别标签对短文本数据集中的每个短文本进行标注后生成的数据集;
步骤104、将第二层级标注数据集输入初始第二层级分类模型进行模型训练,生成最优第二层级分类模型,其中,所述初始第二层级分类模型是初始第二层级预训练模型Bert base后接初始第二层级全连接层,所述初始第二层级预训练模型Bert base是将最优第一层级预训练模型Bert base的前N层的训练参数迁移到公开的预训练模型Bert base的前N层后得到的预训练模型Bert base,最优第二层级分类模型是最优第二预训练模型Bertbase后接最优第二全连接层,所述最优第二层级预训练模型Bert base是对初始第二层级预训练模型Bert base进行微调得到的预训练模型Bert base,所述最优第二层级全连接层是对初始第二层级全连接层调整参数后得到的全连接层,N为自然数;
步骤105、获取第i层级标注数据集,其中,所述第i层级标注数据集是按照预先设置的第i层级类别标签对短文本数据集中的每个短文本进行标注后生成的数据集,其中,3≤i≤I,i的初始值为3,I为自然数;
步骤106、将第i层级标注数据集输入初始第i层级分类模型进行模型训练,生成最优第i层级分类模型,其中,所述初始第i层级分类模型是初始第i层级预训练模型Bertbase后接初始第i层级全连接层,所述初始第i层级预训练模型Bert base是将最优第i-1层级预训练模型Bert base的前N层的训练参数迁移到初始第i层级预训练模型Bert base的前N层后得到的预训练模型Bert base,最优第i层级分类模型是最优第i层级预训练模型Bert base后接最优第i层级全连接层,所述最优第i层级预训练模型Bert base是对初始第i层级预训练模型Bert base进行微调得到的预训练模型Bert base,所述最优第i层级层级全连接层是对初始第i层级全连接层调整参数后得到的全连接层;
步骤107、令i=i+1,当i≤I时,返回步骤105,当i>I时,转至步骤108;
步骤108、将最优第一层级分类模型至最优第I层级分类模型按照从第一层级至第I层级的顺序组合生成的模型作为短文本多层级分类模型。
可选地,在本发明上述各方法实施例中,在获取第一层级标注数据集之前还包括:
设置J个层级的短文本类别标签,分别生成第一层级类别标签至第J级类别标签,其中,第j层级类别标签的分类层级高于第j+1层级类别标签,1≤j≤J,且J等于I;
采集多个短文本生成短文本数据集;
按照设置的第一层级类别标签至第J层级类别标签,分别对短文本数据集中的每个短文本进行标注,对应生成第一层级标注数据集至第J层级标注数据集。
可选地,在本发明上述各方法实施例中,所述方法采用的公开的预训练模型Bertbase的网络层数L=12,隐含层节点数H=768,self-attention head数量A=12。
可选地,在本发明上述各方法实施例中,所述初始第二层级预训练模型Bert base是将最优第一层级预训练模型Bert base的前N层的训练参数迁移到公开的预训练模型Bert base的前N层后得到的预训练模型Bert base,其中,N值为6。
根据本发明实施例的另一个方面,提供了一种建立短文本多层级分类模型的系统,所述系统包括:
第一数据模块,用于获取第一层级标注数据集,其中,所述第一层级标注数据集是按照预先设置的第一层级类别标签对短文本数据集中的每个短文本进行标注后生成的数据集;
第一模型模块,用于将第一层级标注数据集输入初始第一层级分类模型进行模型训练,生成最优第一层级分类模型,其中,所述初始第一层级分类模型是公开的预训练模型Bert base后接初始第一层级全连接层,所述最优第一层级分类模型是最优第一层级预训练模型Bert base后接最优第一层级全连接层,所述最优第一层级预训练模型Bert base是对公开的预训练模型Bert base进行微调得到的预训练模型Bert base,所述最优第一层级全连接层是对初始第一层级全连接层调整参数后得到的全连接层;
第二数据模块,用于获取第二层级标注数据集,其中,所述第二层级标注数据集是是按照预先设置的第二层级类别标签对短文本数据集中的每个短文本进行标注后生成的数据集;
第二模型模块,用于将第二层级标注数据集输入初始第二层级分类模型进行模型训练,生成最优第二层级分类模型,其中,所述初始第二层级分类模型是初始第二层级预训练模型Bert base后接初始第二层级全连接层,所述初始第二层级预训练模型Bert base是将最优第一层级预训练模型Bert base的前N层的训练参数迁移到公开的预训练模型Bertbase的前N层后得到的预训练模型Bert base,最优第二层级分类模型是最优第二预训练模型Bert base后接最优第二全连接层,所述最优第二层级预训练模型Bert base是对初始第二层级预训练模型Bert base进行微调得到的预训练模型Bert base,所述最优第二层级全连接层是对初始第二层级全连接层调整参数后得到的全连接层,N为自然数;
第三数据模块,用于获取第i层级标注数据集,其中,所述第i层级标注数据集是按照预先设置的第i层级类别标签对短文本数据集中的每个短文本进行标注后生成的数据集,其中,3≤i≤I,i的初始值为3,I为自然数;
第三模型模块,用于将第i层级标注数据集输入初始第i层级分类模型进行模型训练,生成最优第i层级分类模型,其中,所述初始第i层级分类模型是初始第i层级预训练模型Bert base后接初始第i层级全连接层,所述初始第i层级预训练模型Bert base是将最优第i-1层级预训练模型Bert base的前N层的训练参数迁移到初始第i层级预训练模型Bertbase的前N层后得到的预训练模型Bert base,最优第i层级分类模型是最优第i层级预训练模型Bert base后接最优第i层级全连接层,所述最优第i层级预训练模型Bert base是对初始第i层级预训练模型Bert base进行微调得到的预训练模型Bert base,所述最优第i层级层级全连接层是对初始第i层级全连接层调整参数后得到的全连接层;
迭代计算模块,用于令i=i+1,当i≤I时,返回第三数据模块,当i>I时,转至模型生成模块;
模型生成模块,用于将最优第一层级分类模型至最优第I层级分类模型按照从第一层级至第I层级的顺序组合生成的模型作为短文本多层级分类模型。
可选地,在本发明上述各装置实施例中,所述系统还包括数据标注模块,用于对短文本进行标注,生成标注数据集,其中:
类别标签单元,用于设置J个层级的短文本类别标签,分别生成第一层级类别标签至第J级类别标签,其中,第j层级类别标签的分类层级高于第j+1层级类别标签,1≤j≤J,且J等于I;
文本采集单元,用于采集多个短文本生成短文本数据集;
文本标注单元,用于按照设置的第一层级类别标签至第J层级类别标签,分别对短文本数据集中的每个短文本进行标注,对应生成第一层级标注数据集至第J层级标注数据集。
可选地,在本发明上述各装置实施例中,所述第一模型模块采用的公开的预训练模型Bert base的网络层数L=12,隐含层节点数H=768,self-attention head数量A=12。
可选地,在本发明上述各装置实施例中,所述第二模型模块中的初始第二层级预训练模型Bert base是将最优第一层级预训练模型Bert base的前N层的训练参数迁移到公开的预训练模型Bert base的前N层后得到的预训练模型Bert base,其中,N值为6。
基于本发明上述实施例提供的建立短文本多层级分类模型的方法和系统,所述方法包括:对同一份短文本数据集,按照设置的不同层级的短文本类别标签进行标注后生成的不同层级的标注数据集,并将其作为输入,对基于公开的预训练模型Bert base后接全连接层建立的分类模型分层级进行模型训练,生成不同层级的分类模型,并在训练下一层级分类模型时,将上一层级经过微调的预训练模型Bert base的部分训练参数迁移到下一层级初始预训练模型Bert base的对应部分,最后将生成的多层级的分类模型进行组合生成最终的分类模型。所述方法和系统的有益效果包括:通过多层级分类模型,针对短文本分类的多层级特点,设计多层级分类模型,对每一层级进行微调学习,并且相邻层级直接进行部分训练参数的迁移,可使得相邻层级的信息充分交互,有效利用,一方面对于高层级,可有效扩增每种类别下的数据总量,解决低层级模型训练的数据稀疏问题;另一方面,对于低层级分类模型的分类学习,可通过迁移高层级分类模型的通用参数,进行指导学习,进而提升训练效果。进一步地,与现有短文本分类模型相比,本专利提出多层级分类模型可将预测误差限制在单个层级中,避免了现有的分类模型只是简单将多层级类别平铺为单个层级进行分类学习,容易出现模型在不同层级类别间预测错误的问题,使其更符合人的接受度。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本发明一示例性实施例提供的建立短文本多层级分类模型的方法的流程示意图;
图2是本发明一示例性实施例提供采用短文本多层级分类模型进行短文本分类的示意图;
图3是本发明一示例性实施例提供的建立短文本多层级分类模型的系统的结构示意图。
具体实施方式
下面,将参考附图详细地描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
本领域技术人员可以理解,本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本发明实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本发明实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本发明中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本发明中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本发明对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本发明实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
示例性方法
图1是本发明一示例性实施例提供的建立短文本多层级分类模型的方法的流程示意图。本实施例可应用在电子设备上,如图1所示,本实施例所述建立短文本多层级分类模型的方法包括以下步骤:
步骤101、获取第一层级标注数据集,其中,所述第一层级标注数据集是按照预先设置的第一层级类别标签对短文本数据集中的每个短文本进行标注后生成的数据集。
可选地,在获取第一层级标注数据集之前还包括:
设置J个层级的短文本类别标签,分别生成第一层级类别标签至第J级类别标签,其中,第j层级类别标签的分类层级高于第j+1层级类别标签,1≤j≤J,且J等于I;
采集多个短文本生成短文本数据集;
按照设置的第一层级类别标签至第J层级类别标签,分别对短文本数据集中的每个短文本进行标注,对应生成第一层级标注数据集至第J层级标注数据集。
在一个实施例中,充分考虑短文本所属类别的层次性,对短文本设置不同层级的类别标签。比如,对于猫和狗分别设置动物,猫科和动物,犬科两个层级的类别标签。对于兰花和菊花分别设置植物,兰科和植物,菊科两个层级的类别标签。通过建立两个层级的类别标签,避免了分类模型只学习最底层的分类任务,从而出现将动物预测为植物的跨类别错误,而且分类模型只学习最底层的分类任务,还容易面临因类别多而导致的数据稀疏问题,从而降低网络预测精度。
步骤102、将第一层级标注数据集输入初始第一层级分类模型进行模型训练,生成最优第一层级分类模型,其中,所述初始第一层级分类模型是公开的预训练模型Bert base后接初始第一层级全连接层,所述最优第一层级分类模型是最优第一层级预训练模型Bertbase后接最优第一层级全连接层,所述最优第一层级预训练模型Bert base是对公开的预训练模型Bert base进行微调得到的预训练模型Bert base,所述最优第一层级全连接层是对初始第一层级全连接层调整参数后得到的全连接层。
可选地,所述方法采用的公开的预训练模型Bert base的网络层数L=12,隐含层节点数H=768,self-attention head数量A=12。
在一个实施例中,针对已经公开的多种预训练模型Bert base,本实施例选择公开的预训练模型Bert base的网络层数L=12,隐含层节点数H=768,self-attention head数量A=12。
由于在有标注数据集的前提下,对公开的预训练模型Bert base后接全连接层的初始第一层级分类模型进行训练,通过对输出结果进行分析,从而微调公开的预训练模型Bert base和全连接层训练参数,以获得最优第一层级分类模型是本领域技术人员已知的,此处不再赘述。
步骤103、获取第二层级标注数据集,其中,所述第二层级标注数据集是是按照预先设置的第二层级类别标签对短文本数据集中的每个短文本进行标注后生成的数据集。
步骤104、将第二层级标注数据集输入初始第二层级分类模型进行模型训练,生成最优第二层级分类模型,其中,所述初始第二层级分类模型是初始第二层级预训练模型Bert base后接初始第二层级全连接层,所述初始第二层级预训练模型Bert base是将最优第一层级预训练模型Bert base的前N层的训练参数迁移到公开的预训练模型Bert base的前N层后得到的预训练模型Bert base,最优第二层级分类模型是最优第二预训练模型Bertbase后接最优第二全连接层,所述最优第二层级预训练模型Bert base是对初始第二层级预训练模型Bert base进行微调得到的预训练模型Bert base,所述最优第二层级全连接层是对初始第二层级全连接层调整参数后得到的全连接层,N为自然数。
可选地,所述初始第二层级预训练模型Bert base是将最优第一层级预训练模型Bert base的前N层的训练参数迁移到公开的预训练模型Bert base的前N层后得到的预训练模型Bert base,其中,N值为6。
在一个实施例中,选择N值为6,基于第一标注数据集对初始第一层级分类模型训练得到最优第一层级分类模型,并将最优第一层级分类模型中的预训练模型Bert base的前6层学到的通用特征迁移到第二层级分类模型中的预训练模型Bert base的前6层中,用于第二层级分类模型对第二标注数据集中涉及的更多类别的学习中,通过对网络参数迁移的方式,来缓解第二层级分类模型进行训练时的数据稀疏的问题。
步骤105、获取第i层级标注数据集,其中,所述第i层级标注数据集是按照预先设置的第i层级类别标签对短文本数据集中的每个短文本进行标注后生成的数据集,其中,3≤i≤I,i的初始值为3,I为自然数。
步骤106、将第i层级标注数据集输入初始第i层级分类模型进行模型训练,生成最优第i层级分类模型,其中,所述初始第i层级分类模型是初始第i层级预训练模型Bertbase后接初始第i层级全连接层,所述初始第i层级预训练模型Bert base是将最优第i-1层级预训练模型Bert base的前N层的训练参数迁移到初始第i层级预训练模型Bert base的前N层后得到的预训练模型Bert base,最优第i层级分类模型是最优第i层级预训练模型Bert base后接最优第i层级全连接层,所述最优第i层级预训练模型Bert base是对初始第i层级预训练模型Bert base进行微调得到的预训练模型Bert base,所述最优第i层级层级全连接层是对初始第i层级全连接层调整参数后得到的全连接层。
步骤107、令i=i+1,当i≤I时,返回步骤105,当i>I时,转至步骤108。
步骤108、将最优第一层级分类模型至最优第I层级分类模型按照从第一层级至第I层级的顺序组合生成的模型作为短文本多层级分类模型。
图2为本发明一示例性实施例提供的短文本多层级分类模型进行短文本分类的示意图。如图2所示,在一个实施例中,通过生成的双层级分类模型,对于同一个文本,通过分别输入短文本多层级分类模型中的最优第一层级分类模型和最优第二层级分类模型,则针对同一个短文本,则得到了两个层级的分类类别,其中第一层级中包括A、B两个类别,第二层级中则包括A类别中有A1和A2两个子类别,B类别中包括B1和B2两个类别。
通过上述实施例可以看出,单独采用一个层级对信息进行提取,则由于需要抽取的自定义实体类型数量大,比如几百种,必然造成模型训练所需要的数据不充分。而采用双层级模型对短文本进行分类,由于第一层级设置的类别相对较少,则模型训练需要的数据也相对较少,但由于将第一层级分类模型中的Bert base的前6层学习到的通用特征,以训练参数的形式迁移到了第二层级分类中的Bert base的前6层,用于对第二层级中涉及的几百种子类别的学习中,能较好地缓解第二层级分类模型进行模型训练时的数据稀疏问题,而且也避免了对短文本分类时出现跨类别错误。
示例性系统
图3是本发明一示例性实施例提供的建立短文本多层级分类模型的系统的结构示意图。如图3所示,本实施例所述的建立短文本多层级分类模型的系统包括:
第一数据模块301,用于获取第一层级标注数据集,其中,所述第一层级标注数据集是按照预先设置的第一层级类别标签对短文本数据集中的每个短文本进行标注后生成的数据集;
第一模型模块302,用于将第一层级标注数据集输入初始第一层级分类模型进行模型训练,生成最优第一层级分类模型,其中,所述初始第一层级分类模型是公开的预训练模型Bert base后接初始第一层级全连接层,所述最优第一层级分类模型是最优第一层级预训练模型Bert base后接最优第一层级全连接层,所述最优第一层级预训练模型Bertbase是对公开的预训练模型Bert base进行微调得到的预训练模型Bert base,所述最优第一层级全连接层是对初始第一层级全连接层调整参数后得到的全连接层;
第二数据模块303,用于获取第二层级标注数据集,其中,所述第二层级标注数据集是是按照预先设置的第二层级类别标签对短文本数据集中的每个短文本进行标注后生成的数据集;
第二模型模块304,用于将第二层级标注数据集输入初始第二层级分类模型进行模型训练,生成最优第二层级分类模型,其中,所述初始第二层级分类模型是初始第二层级预训练模型Bert base后接初始第二层级全连接层,所述初始第二层级预训练模型Bertbase是将最优第一层级预训练模型Bert base的前N层的训练参数迁移到公开的预训练模型Bert base的前N层后得到的预训练模型Bert base,最优第二层级分类模型是最优第二预训练模型Bert base后接最优第二全连接层,所述最优第二层级预训练模型Bert base是对初始第二层级预训练模型Bert base进行微调得到的预训练模型Bert base,所述最优第二层级全连接层是对初始第二层级全连接层调整参数后得到的全连接层,N为自然数;
第三数据模块305,用于获取第i层级标注数据集,其中,所述第i层级标注数据集是按照预先设置的第i层级类别标签对短文本数据集中的每个短文本进行标注后生成的数据集,其中,3≤i≤I,i的初始值为3,I为自然数;
第三模型模块306,用于将第i层级标注数据集输入初始第i层级分类模型进行模型训练,生成最优第i层级分类模型,其中,所述初始第i层级分类模型是初始第i层级预训练模型Bert base后接初始第i层级全连接层,所述初始第i层级预训练模型Bert base是将最优第i-1层级预训练模型Bert base的前N层的训练参数迁移到初始第i层级预训练模型Bert base的前N层后得到的预训练模型Bert base,最优第i层级分类模型是最优第i层级预训练模型Bert base后接最优第i层级全连接层,所述最优第i层级预训练模型Bert base是对初始第i层级预训练模型Bert base进行微调得到的预训练模型Bert base,所述最优第i层级层级全连接层是对初始第i层级全连接层调整参数后得到的全连接层;
迭代计算模块307,用于令i=i+1,当i≤I时,返回第三数据模块,当i>I时,转至模型生成模块;
模型生成模块308,用于将最优第一层级分类模型至最优第I层级分类模型按照从第一层级至第I层级的顺序组合生成的模型作为短文本多层级分类模型。
可选地,所述系统还包括数据标注模块309,用于对短文本进行标注,生成标注数据集,其中:
类别标签单元391,用于设置J个层级的短文本类别标签,分别生成第一层级类别标签至第J级类别标签,其中,第j层级类别标签的分类层级高于第j+1层级类别标签,1≤j≤J,且J等于I;
文本采集单元392,用于采集多个短文本生成短文本数据集;
文本标注单元393,用于按照设置的第一层级类别标签至第J层级类别标签,分别对短文本数据集中的每个短文本进行标注,对应生成第一层级标注数据集至第J层级标注数据集。
可选地,所述第一模型模块302采用的公开的预训练模型Bert base的网络层数L=12,隐含层节点数H=768,self-attention head数量A=12。
可选地,所述第二模型模块304中的初始第二层级预训练模型Bert base是将最优第一层级预训练模型Bert base的前N层的训练参数迁移到公开的预训练模型Bert base的前N层后得到的预训练模型Bert base,其中,N值为6。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和装置以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的建立短文本多层级分类模型的方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的建立短文本多层级分类模型的方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (8)
1.一种建立短文本多层级分类模型的方法,其特征在于,所述方法包括:
步骤101、获取第一层级标注数据集,其中,所述第一层级标注数据集是按照预先设置的第一层级类别标签对短文本数据集中的每个短文本进行标注后生成的数据集;
步骤102、将第一层级标注数据集输入初始第一层级分类模型进行模型训练,生成最优第一层级分类模型,其中,所述初始第一层级分类模型是公开的预训练模型Bert base后接初始第一层级全连接层,所述最优第一层级分类模型是最优第一层级预训练模型Bertbase后接最优第一层级全连接层,所述最优第一层级预训练模型Bert base是对公开的预训练模型Bert base进行微调得到的预训练模型Bert base,所述最优第一层级全连接层是对初始第一层级全连接层调整参数后得到的全连接层;
步骤103、获取第二层级标注数据集,其中,所述第二层级标注数据集是是按照预先设置的第二层级类别标签对短文本数据集中的每个短文本进行标注后生成的数据集;
步骤104、将第二层级标注数据集输入初始第二层级分类模型进行模型训练,生成最优第二层级分类模型,其中,所述初始第二层级分类模型是初始第二层级预训练模型Bertbase后接初始第二层级全连接层,所述初始第二层级预训练模型Bert base是将最优第一层级预训练模型Bert base的前N层的训练参数迁移到公开的预训练模型Bert base的前N层后得到的预训练模型Bert base,最优第二层级分类模型是最优第二预训练模型Bertbase后接最优第二全连接层,所述最优第二层级预训练模型Bert base是对初始第二层级预训练模型Bert base进行微调得到的预训练模型Bert base,所述最优第二层级全连接层是对初始第二层级全连接层调整参数后得到的全连接层,N为自然数;
步骤105、获取第i层级标注数据集,其中,所述第i层级标注数据集是按照预先设置的第i层级类别标签对短文本数据集中的每个短文本进行标注后生成的数据集,其中,3≤i≤I,i的初始值为3,I为自然数;
步骤106、将第i层级标注数据集输入初始第i层级分类模型进行模型训练,生成最优第i层级分类模型,其中,所述初始第i层级分类模型是初始第i层级预训练模型Bert base后接初始第i层级全连接层,所述初始第i层级预训练模型Bert base是将最优第i-1层级预训练模型Bert base的前N层的训练参数迁移到初始第i层级预训练模型Bert base的前N层后得到的预训练模型Bert base,最优第i层级分类模型是最优第i层级预训练模型Bert base后接最优第i层级全连接层,所述最优第i层级预训练模型Bert base是对初始第i层级预训练模型Bert base进行微调得到的预训练模型Bert base,所述最优第i层级层级全连接层是对初始第i层级全连接层调整参数后得到的全连接层;
步骤107、令i=i+1,当i≤I时,返回步骤105,当i>I时,转至步骤108;
步骤108、将最优第一层级分类模型至最优第I层级分类模型按照从第一层级至第I层级的顺序组合生成的模型作为短文本多层级分类模型。
2.根据权利要求1所述的方法,其特征在于,在获取第一层级标注数据集之前还包括:
设置J个层级的短文本类别标签,分别生成第一层级类别标签至第J级类别标签,其中,第j层级类别标签的分类层级高于第j+1层级类别标签,1≤j≤J,且J等于I;
采集多个短文本生成短文本数据集;
按照设置的第一层级类别标签至第J层级类别标签,分别对短文本数据集中的每个短文本进行标注,对应生成第一层级标注数据集至第J层级标注数据集。
3.根据权利要求1所述的方法,其特征在于,所述方法采用的公开的预训练模型Bertbase的网络层数L=12,隐含层节点数H=768,self-attention head数量A=12。
4.根据权利要求3所述的方法,其特征在于,所述初始第二层级预训练模型Bert base是将最优第一层级预训练模型Bert base的前N层的训练参数迁移到公开的预训练模型Bert base的前N层后得到的预训练模型Bert base,其中,N值为6。
5.一种建立短文本多层级分类模型的系统,其特征在于,所述系统包括:
第一数据模块,用于获取第一层级标注数据集,其中,所述第一层级标注数据集是按照预先设置的第一层级类别标签对短文本数据集中的每个短文本进行标注后生成的数据集;
第一模型模块,用于将第一层级标注数据集输入初始第一层级分类模型进行模型训练,生成最优第一层级分类模型,其中,所述初始第一层级分类模型是公开的预训练模型Bert base后接初始第一层级全连接层,所述最优第一层级分类模型是最优第一层级预训练模型Bert base后接最优第一层级全连接层,所述最优第一层级预训练模型Bert base是对公开的预训练模型Bert base进行微调得到的预训练模型Bert base,所述最优第一层级全连接层是对初始第一层级全连接层调整参数后得到的全连接层;
第二数据模块,用于获取第二层级标注数据集,其中,所述第二层级标注数据集是是按照预先设置的第二层级类别标签对短文本数据集中的每个短文本进行标注后生成的数据集;
第二模型模块,用于将第二层级标注数据集输入初始第二层级分类模型进行模型训练,生成最优第二层级分类模型,其中,所述初始第二层级分类模型是初始第二层级预训练模型Bert base后接初始第二层级全连接层,所述初始第二层级预训练模型Bert base是将最优第一层级预训练模型Bert base的前N层的训练参数迁移到公开的预训练模型Bertbase的前N层后得到的预训练模型Bert base,最优第二层级分类模型是最优第二预训练模型Bert base后接最优第二全连接层,所述最优第二层级预训练模型Bert base是对初始第二层级预训练模型Bert base进行微调得到的预训练模型Bert base,所述最优第二层级全连接层是对初始第二层级全连接层调整参数后得到的全连接层,N为自然数;
第三数据模块,用于获取第i层级标注数据集,其中,所述第i层级标注数据集是按照预先设置的第i层级类别标签对短文本数据集中的每个短文本进行标注后生成的数据集,其中,3≤i≤I,i的初始值为3,I为自然数;
第三模型模块,用于将第i层级标注数据集输入初始第i层级分类模型进行模型训练,生成最优第i层级分类模型,其中,所述初始第i层级分类模型是初始第i层级预训练模型Bert base后接初始第i层级全连接层,所述初始第i层级预训练模型Bert base是将最优第i-1层级预训练模型Bert base的前N层的训练参数迁移到初始第i层级预训练模型Bertbase的前N层后得到的预训练模型Bert base,最优第i层级分类模型是最优第i层级预训练模型Bert base后接最优第i层级全连接层,所述最优第i层级预训练模型Bert base是对初始第i层级预训练模型Bert base进行微调得到的预训练模型Bert base,所述最优第i层级层级全连接层是对初始第i层级全连接层调整参数后得到的全连接层;
迭代计算模块,用于令i=i+1,当i≤I时,返回第三数据模块,当i>I时,转至模型生成模块;
模型生成模块,用于将最优第一层级分类模型至最优第I层级分类模型按照从第一层级至第I层级的顺序组合生成的模型作为短文本多层级分类模型。
6.根据权利要求5所述的系统,其特征在于,所述系统还包括数据标注模块,用于对短文本进行标注,生成标注数据集,其中:
类别标签单元,用于设置J个层级的短文本类别标签,分别生成第一层级类别标签至第J级类别标签,其中,第j层级类别标签的分类层级高于第j+1层级类别标签,1≤j≤J,且J等于I;
文本采集单元,用于采集多个短文本生成短文本数据集;
文本标注单元,用于按照设置的第一层级类别标签至第J层级类别标签,分别对短文本数据集中的每个短文本进行标注,对应生成第一层级标注数据集至第J层级标注数据集。
7.根据权利要求5所述的系统,其特征在于,所述第一模型模块采用的公开的预训练模型Bert base的网络层数L=12,隐含层节点数H=768,self-attention head数量A=12。
8.根据权利要求7所述的系统,其特征在于,所述第二模型模块中的初始第二层级预训练模型Bert base是将最优第一层级预训练模型Bert base的前N层的训练参数迁移到公开的预训练模型Bert base的前N层后得到的预训练模型Bert base,其中,N值为6。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111636972.6A CN114579737A (zh) | 2021-12-29 | 2021-12-29 | 一种建立短文本多层级分类模型的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111636972.6A CN114579737A (zh) | 2021-12-29 | 2021-12-29 | 一种建立短文本多层级分类模型的方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114579737A true CN114579737A (zh) | 2022-06-03 |
Family
ID=81769529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111636972.6A Pending CN114579737A (zh) | 2021-12-29 | 2021-12-29 | 一种建立短文本多层级分类模型的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114579737A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117541810A (zh) * | 2023-11-17 | 2024-02-09 | 粤港澳大湾区(广东)国创中心 | 三维特征提取方法、装置、电子设备以及可读存储介质 |
-
2021
- 2021-12-29 CN CN202111636972.6A patent/CN114579737A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117541810A (zh) * | 2023-11-17 | 2024-02-09 | 粤港澳大湾区(广东)国创中心 | 三维特征提取方法、装置、电子设备以及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Babu et al. | Sentiment analysis in social media data for depression detection using artificial intelligence: a review | |
US20200279105A1 (en) | Deep learning engine and methods for content and context aware data classification | |
US11727211B2 (en) | Systems and methods for colearning custom syntactic expression types for suggesting next best correspondence in a communication environment | |
Rani et al. | An efficient CNN-LSTM model for sentiment detection in# BlackLivesMatter | |
Pan et al. | Social media-based user embedding: A literature review | |
CN110750648A (zh) | 一种基于深度学习和特征融合的文本情感分类方法 | |
Singh et al. | A comparison of linear discriminant analysis and ridge classifier on Twitter data | |
Ordonez et al. | Predicting entry-level categories | |
Yadav et al. | [Retracted] Qualitative Analysis of Text Summarization Techniques and Its Applications in Health Domain | |
Pintye et al. | Big data and machine learning framework for clouds and its usage for text classification | |
Si et al. | Federated non-negative matrix factorization for short texts topic modeling with mutual information | |
CN114579737A (zh) | 一种建立短文本多层级分类模型的方法和系统 | |
Vineetha et al. | A multinomial naïve Bayes classifier for identifying actors and use cases from software requirement specification documents | |
Zhang et al. | Predicting and visualizing consumer sentiments in online social media | |
Chifu et al. | Unsupervised semantic annotation of Web service datatypes | |
Geng | Open relation extraction in patent claims with a hybrid network | |
Patel et al. | Mental health detection using transformer bert | |
Kang et al. | Semisupervised learning of author‐specific emotions in micro‐blogs | |
Basha et al. | Natural Language Processing: Practical Approach | |
Kamath et al. | Semantic similarity based context-aware web service discovery using nlp techniques | |
Nayak et al. | Knowledge graph from informal text: architecture, components, algorithms and applications | |
CN111008281A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
Kathirvalavakumar | Two dimensional feature extraction and blog classification using artificial neural network | |
Coban et al. | Domain Effect Investigation for Bert Models Fine-Tuned on Different Text Categorization Tasks | |
Padia et al. | Automating class/instance representational choices in knowledge bases |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |