CN113987171A - 基于预训练模型变种的新闻文本分类方法及系统 - Google Patents

基于预训练模型变种的新闻文本分类方法及系统 Download PDF

Info

Publication number
CN113987171A
CN113987171A CN202111222503.XA CN202111222503A CN113987171A CN 113987171 A CN113987171 A CN 113987171A CN 202111222503 A CN202111222503 A CN 202111222503A CN 113987171 A CN113987171 A CN 113987171A
Authority
CN
China
Prior art keywords
news
model
text
classification
news text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111222503.XA
Other languages
English (en)
Inventor
黄孝喜
童伟
王荣波
谌志群
姚金良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaoxing Dadao Career Education Information Consulting Co ltd
Hangzhou Dianzi University
Original Assignee
Shaoxing Dadao Career Education Information Consulting Co ltd
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaoxing Dadao Career Education Information Consulting Co ltd, Hangzhou Dianzi University filed Critical Shaoxing Dadao Career Education Information Consulting Co ltd
Priority to CN202111222503.XA priority Critical patent/CN113987171A/zh
Publication of CN113987171A publication Critical patent/CN113987171A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于预训练模型变种的新闻文本分类方法及系统,属于文本分类领域。本发明采用BERT和RNN复合模型对数据集中的特征进行有效提取,对于已经经过预训练的BERT模型,其广泛适用于下游任务的各个集合,不需要利用重复数据进行训练,同时基于self‑attention机制可以有效的可以不仅可以得到源端与目标端词与词之间的依赖关系,同时还可以有效获取源端或目标端自身词与词之间的依赖关系。在此基础上,引入了RNN模型,用于捕捉长距离文本依赖上信息丢失的问题,对结果进行特征融合,在新闻文本分类上取得了较为理想的效果。

Description

基于预训练模型变种的新闻文本分类方法及系统
技术领域
本发明涉及大数据分析技术领域,特别是涉及一种基于预训练模型变种的新闻文本分类方法。
背景技术
随着互联网新闻领域的蓬勃发展,越来越多的人们习惯在移动设备上浏览新闻,同时随着网络信息的快速增长,人们接受的新闻内容信息是有限的,同时对于网络新闻分类一直是自然语言处理领域中的经典问题,对于新闻这类长文本分类的研究已经相对比较透彻,但是其中依然有非常多的细节和商业化实现过程中会遇到的很多额外的困难需要考虑,传统的人工标注分类的方法不仅容易更加费时费力,而且容易误判,所以如何快速准确判断新闻文本分类的类别在自然语言处理领域一直是比较有挑战性的问题,涉及到自然语言处理,数据挖掘,机器学习等多个领域的学科技术和方法。
现有的技术文献中,一般是基于传统的卷积神经网络分类和基于统计的机器学习分类方法,对于已经成熟的文本语料库误差还是存在分类准确率不够高,同时对于最新的新闻语料分类效果不是很好,导致在传统领域对比人工标注分类仍有不足。
发明内容
本发明的目的是提供一种基于预训练模型变种的新闻文本分类方法,从而解决现有技术中分类存在的前述问题。
为实现上述发明目的,本发明所采用的具体技术方案如下:
第一方面,本发明提供了一种基于预训练模型变种的新闻文本分类方法,其包括如下步骤:
S1、获取标注有类别标签的新闻文本语料,形成分类语料库;
S2、利用所述分类语料库对新闻文本分类模型进行训练,所述新闻文本分类模型基于预训练模型BERT和循环神经网络RNN组成模型框架,首先将新闻文本处理为相同长度的句向量,然后输入预训练模型BERT中进行转换得到词向量矩阵,再将词向量矩阵传入循环神经网络RNN中,由卷积层和池化层进行二次特征提取得到语义特征向量,语义特征向量最终通过全连接层和Softmax层后输出新闻文本的分类结果;
S3、将待分类的新闻文本输入训练后的新闻文本分类模型中,输出新闻文本的分类结果。
作为优选,所述S1中,利用爬虫爬取新闻网站中的新闻主题作为文本信息,利用新闻网站的分类新闻窗口对文本进行分类,得到分类语料库。
作为优选,所述新闻文本在处理为句向量时,若小于标准句向量长度则在末尾用0进行补全填充,若大于标准句向量长度则通过切割将其划分为标准句向量长度。
作为优选,所述预训练模型BERT通过将BERT模型在无标注的中文文本数据集上进行微调后得到。
作为优选,输入新闻文本分类模型的文本需预先对句子中的标点符号进行剔除。
第二方面,本发明提供一种基于预训练模型变种的新闻文本分类系统,其包括:
数据获取模块:用于获取标注有类别标签的新闻文本语料,形成分类语料库;
模型训练模块:用于利用所述分类语料库对新闻文本分类模型进行训练,所述新闻文本分类模型基于预训练模型BERT和循环神经网络RNN组成模型框架,首先将新闻文本处理为相同长度的句向量,然后输入预训练模型BERT中进行转换得到词向量矩阵,再将词向量矩阵传入循环神经网络RNN中,由卷积层和池化层进行二次特征提取得到语义特征向量,语义特征向量最终通过全连接层和Softmax层后输出新闻文本的分类结果;
分类模块:用于将待分类的新闻文本输入训练后的新闻文本分类模型中,输出新闻文本的分类结果。
作为优选,所述数据获取模中,利用爬虫爬取新闻网站中的新闻主题作为文本信息,利用新闻网站的分类新闻窗口对文本进行分类,得到分类语料库。
作为优选,所述新闻文本在处理为句向量时,若小于标准句向量长度则在末尾用0进行补全填充,若大于标准句向量长度则通过切割将其划分为标准句向量长度。
作为优选,所述预训练模型BERT通过将BERT模型在无标注的中文文本数据集上进行微调后得到。
作为优选,输入新闻文本分类模型的文本需预先对句子中的标点符号进行剔除。
相对于现有技术而言,本发明采用BERT和RNN复合模型对数据集中的特征进行有效提取,对于已经经过预训练的BERT模型,其广泛适用于下游任务的各个集合,不需要利用重复数据进行训练,同时基于self-attention机制可以有效的可以不仅可以得到源端与目标端词与词之间的依赖关系,同时还可以有效获取源端或目标端自身词与词之间的依赖关系。在此基础上,引入了RNN模型,用于捕捉长距离文本依赖上信息丢失的问题,对结果进行特征融合,在新闻文本分类上取得了较为理想的效果。
附图说明
图1为基于预训练模型变种的新闻文本分类方法的步骤流程示意图。
图2是本发明的BERT-RNN的模型结构示意图。
图3是TextRNN模型中的Attention机制示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下,均可进行相应组合。
下面结合具体实施案例,进一步阐述本发明。应理解,这些案例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或者修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
如图1所示,在本发明的一个较佳实施例中,提供了一种基于预训练模型变种的新闻文本分类方法,其包括如下步骤:
S1、获取标注有类别标签的新闻文本语料,形成分类语料库。
作为本实施例中的实现形式,先利用爬虫爬取新闻网站,获取新闻主题作为文本信息,从而形成初始数据集S0={s1,s2,s3,…sN},其中,si为所述初始数据集中的第i个新闻文本,i=1,2,…N,N为初始数据集中的文本总数。然后根据每个新闻文本在新闻网站中所处的分类新闻窗口对文本进行分类,例如分为时事类、军事类、科技类、财经类等等,由此得到分类语料库。假设总的分类类别为n,则可将初始数据集划分为子类集D0={d1,d2,d3,…dn},dj为第j类新闻文本,j=1,2,…n。
S2、基于用于语言理解的深度双向Transformer预训练(Pre-training of DeepBidirectional Transformers for Language Understanding)中的BERT(BidirectionalEncoder Representations from Transformers)和循环神经网络RNN级联来构建新闻文本分类模型(BERT-RNN),然后利用S1中得到的分类语料库对新闻文本分类模型进行训练。
如图2所示,新闻文本分类模型由预训练模型变种后得到,具体基于预训练模型BERT和循环神经网络RNN组成模型框架,首先将新闻文本处理为相同长度的句向量,然后输入预训练模型BERT中进行转换得到词向量矩阵,再将词向量矩阵传入循环神经网络RNN中,由卷积层和池化层进行二次特征提取得到语义特征向量,语义特征向量最终通过全连接层和Softmax层后输出新闻文本的分类结果。
在本实施例中,新闻文本在处理为句向量时,若小于标准句向量长度则在末尾用0进行补全填充,若大于标准句向量长度则通过切割将其划分为标准句向量长度。若有指定,标准句向量长度按照指定值,若无指定则默认选择数据集中的最大长度。另外,需要注意的是,输入新闻文本分类模型的文本需预先对句子中的标点符号进行剔除。
需注意的是,由于本实施例中的新闻文本为中文文本,而原始的BERT模型是基于英文文本进行预训练的,因此用于构建新闻文本分类模型的预训练模型BERT需要采用大量无标注的中文文本进行微调,进行微调的方式为通过随机mask进行训练。具体而言本实施例中随机mask的方式为:将无标注的中文文本数据集,随机mask每一个句子中15%的词,用其上下文进行预测。为了防止某些词在fine-tuning阶段从未出现,对于mask的词,80%的情况采用完全mask策略,10%的情况是随机取一个词来代替mask的词,10%的情况下保持不变。选择一些句子对A和B,其中50%的数据B是A的下一条句子,剩余50%的数据来自于数据集中的其他随机选择的句子。
在上述新闻文本分类模型中,BERT与RNN是级联的。传统的Bert模型在进行文本分类在output层后直接加入softmax层进行分类,虽然可以得到较好的预测结果,但是其模型准确率不高。在本发明中,先利用BERT对文本每个词进行向量化表示获取文本的语义特征,构建语义映射矩阵,输出的词向量矩阵不直接进行分类而是作为embedding层输入到RNN层的卷积层和池化层中,利用卷积层和池化层对词向量特征进行再一次地提取,通过RNN输出维度相同的特征进行后续的文本分类,这种做法可以进一步提升模型的准确率。
BERT模型对词向量进行编码时引入了Attention机制。传统的Seq2Seq模型,无法捕捉长距离依赖上文本可能会丢失的问题,但BERT模型的Attention机制为了解决这个问题,对于编码器(encoder)模型输出的隐藏状态(hidden state)不再作为下一个解码器(decoder)的输入,而是将所有编码器输出的隐藏状态作为输入提供给解码器。解码器选取与当前节点最合适的隐藏状态作为输入,计算隐藏状态的值,对于每一个值进行softmax计算,相关性更高的隐藏状态作为解码器的输入。自注意力机制self-attention的计算公式如下:
Figure BDA0003313125840000051
在self-attention中,Query、Key和Value。目标字及其上下文的字都有各自的原始Value,Attention机制将目标字作为Query、其上下文的各个字作为Key,并将Query与各个Key的相似性作为权重,把上下文各个字的Value融入目标字的原始Value中。Attention机制将目标字和上下文各个字的语义向量表示作为输入,首先通过线性变换获得目标字的Query向量表示、上下文各个字的Key向量表示以及目标字与上下文各个字的原始Value表示,然后计算Query向量与各个Key向量的相似度作为权重,加权融合目标字的Value向量和各个上下文字的Value向量,作为Attention的输出。
因此,通过BERT层和位置公式可以对输入的分类文本中的词语进行权重分配,将得到的词向量构造成词向量矩阵。将在BERT中输出的词向量矩阵输入到RNN层里面的卷积层和池化层,即可利用卷积层和池化层对文本进行二次特征提取,输出维度相同的特征值,计算主题词在不同分类文本中出现频数计算转为特征向量。本实施例中循环神经网络RNN可采用TextRNN模型,其中卷积层中卷积核采用的窗口大小为2或3或4,池化层采用最大池化,卷积核数量为256,池化层输出的新闻文本的特征向量作为全连接层的输入,全连接层输出再经过softmax层,即可得到最终的分类结果。
新闻文本分类模型的具体训练方式为现有技术,可基于最小化损失函数的原则通过优化器进行参数优化。当完成上述新闻文本分类模型的训练后,即可进行实际的新闻文本分类任务。
S3、将待分类的新闻文本输入训练后的新闻文本分类模型中,待分类的新闻文本去除标点符号后,先被处理为相同长度的句向量,然后输入预训练模型BERT中进行转换得到词向量矩阵,再将词向量矩阵传入循环神经网络RNN中,由卷积层和池化层进行二次特征提取得到语义特征向量,语义特征向量最终通过全连接层和Softmax层后输出新闻文本的分类结果。
为了进一步展示本发明的技术效果,下面将上述实施例中的新闻文本分类方法应用于一个具体数据集上。其中BERT-RNN模型中,BERT模型通过维基百科中的中文文本数据集进行微调,TextRNN模型中具有Attention机制,且模型参数随机初始化,同时应加入dropout层,防止数据过拟合的产生。如图3所示,TextRNN模型中的Attention机制能够基于注意力权重对输入进行加权。
新闻数据集来源于THUCNews数据集,预处理过的THUCNews数据集用来训练BERT-RNN模型,在训练之前应将数据集划分为训练集、测试集和验证集,将取得训练效果较好的参数保存。
另外,为了更直观的进行对比,本发明中还同时用单独的TextCNN、TextRNN、和BERT在相同数据集上进行了测试。最终,四种模型在验证集上的分类准确率结果如表1所示:
表1四种模型在验证集上的分类准确率
Figure BDA0003313125840000061
从结果可以看出,本发明的新闻文本分类模型BERT-RNN的准确率明显高于另外三种模型。由此可见,本发明采用BERT和RNN复合模型对数据集中的特征进行有效提取,对于已经经过预训练的BERT模型,其广泛适用于下游任务的各个集合,不需要利用重复数据进行训练,同时基于self-attention机制可以有效的可以不仅可以得到源端与目标端词与词之间的依赖关系,同时还可以有效获取源端或目标端自身词与词之间的依赖关系。在此基础上,引入了RNN模型,用于捕捉长距离文本依赖上信息丢失的问题,对结果进行特征融合,在新闻文本分类上取得了较为理想的效果。
在本发明的另一实施例中,还提供了一种与前述分类方法完全对应的一种基于预训练模型变种的新闻文本分类系统,其包括:
数据获取模块:用于获取标注有类别标签的新闻文本语料,形成分类语料库;
模型训练模块:用于利用所述分类语料库对新闻文本分类模型进行训练,所述新闻文本分类模型基于预训练模型BERT和循环神经网络RNN组成模型框架,首先将新闻文本处理为相同长度的句向量,然后输入预训练模型BERT中进行转换得到词向量矩阵,再将词向量矩阵传入循环神经网络RNN中,由卷积层和池化层进行二次特征提取得到语义特征向量,语义特征向量最终通过全连接层和Softmax层后输出新闻文本的分类结果;
分类模块:用于将待分类的新闻文本输入训练后的新闻文本分类模型中,输出新闻文本的分类结果。
由于上述新闻文本分类系统中各模块分别对应了前述实施例的S1~S3,因此其中具体的实现方式亦可参见前述实施例,对此不再赘述。
需要说明的是,根据本发明公开的实施例,上述学习者画像系统中的各种模块的具体实现功能可以通过编写的计算机软件程序来实现,计算机程序中包含用于执行相应方法的程序代码。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (10)

1.一种基于预训练模型变种的新闻文本分类方法,其特征在于,包括如下步骤:
S1、获取标注有类别标签的新闻文本语料,形成分类语料库;
S2、利用所述分类语料库对新闻文本分类模型进行训练,所述新闻文本分类模型基于预训练模型BERT和循环神经网络RNN组成模型框架,首先将新闻文本处理为相同长度的句向量,然后输入预训练模型BERT中进行转换得到词向量矩阵,再将词向量矩阵传入循环神经网络RNN中,由卷积层和池化层进行二次特征提取得到语义特征向量,语义特征向量最终通过全连接层和Softmax层后输出新闻文本的分类结果;
S3、将待分类的新闻文本输入训练后的新闻文本分类模型中,输出新闻文本的分类结果。
2.如权利要求1所述的基于预训练模型变种的新闻文本分类方法,其特征在于,所述S1中,利用爬虫爬取新闻网站中的新闻主题作为文本信息,利用新闻网站的分类新闻窗口对文本进行分类,得到分类语料库。
3.如权利要求1所述的基于预训练模型变种的新闻文本分类方法,其特征在于,所述新闻文本在处理为句向量时,若小于标准句向量长度则在末尾用0进行补全填充,若大于标准句向量长度则通过切割将其划分为标准句向量长度。
4.如权利要求1所述的基于预训练模型变种的新闻文本分类方法,其特征在于,所述预训练模型BERT通过将BERT模型在无标注的中文文本数据集上进行微调后得到。
5.如权利要求1所述的基于预训练模型变种的新闻文本分类方法,其特征在于,输入新闻文本分类模型的文本需预先对句子中的标点符号进行剔除。
6.一种基于预训练模型变种的新闻文本分类系统,其特征在于,包括:
数据获取模块:用于获取标注有类别标签的新闻文本语料,形成分类语料库;
模型训练模块:用于利用所述分类语料库对新闻文本分类模型进行训练,所述新闻文本分类模型基于预训练模型BERT和循环神经网络RNN组成模型框架,首先将新闻文本处理为相同长度的句向量,然后输入预训练模型BERT中进行转换得到词向量矩阵,再将词向量矩阵传入循环神经网络RNN中,由卷积层和池化层进行二次特征提取得到语义特征向量,语义特征向量最终通过全连接层和Softmax层后输出新闻文本的分类结果;
分类模块:用于将待分类的新闻文本输入训练后的新闻文本分类模型中,输出新闻文本的分类结果。
7.如权利要求6所述的基于预训练模型变种的新闻文本分类系统,其特征在于,所述数据获取模块中,利用爬虫爬取新闻网站中的新闻主题作为文本信息,利用新闻网站的分类新闻窗口对文本进行分类,得到分类语料库。
8.如权利要求6所述的基于预训练模型变种的新闻文本分类系统,其特征在于,所述新闻文本在处理为句向量时,若小于标准句向量长度则在末尾用0进行补全填充,若大于标准句向量长度则通过切割将其划分为标准句向量长度。
9.如权利要求6所述的基于预训练模型变种的新闻文本分类系统,其特征在于,所述预训练模型BERT通过将BERT模型在无标注的中文文本数据集上进行微调后得到。
10.如权利要求6所述的基于预训练模型变种的新闻文本分类系统,其特征在于,输入新闻文本分类模型的文本需预先对句子中的标点符号进行剔除。
CN202111222503.XA 2021-10-20 2021-10-20 基于预训练模型变种的新闻文本分类方法及系统 Pending CN113987171A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111222503.XA CN113987171A (zh) 2021-10-20 2021-10-20 基于预训练模型变种的新闻文本分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111222503.XA CN113987171A (zh) 2021-10-20 2021-10-20 基于预训练模型变种的新闻文本分类方法及系统

Publications (1)

Publication Number Publication Date
CN113987171A true CN113987171A (zh) 2022-01-28

Family

ID=79739675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111222503.XA Pending CN113987171A (zh) 2021-10-20 2021-10-20 基于预训练模型变种的新闻文本分类方法及系统

Country Status (1)

Country Link
CN (1) CN113987171A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115098389A (zh) * 2022-07-05 2022-09-23 四川大学 一种基于依赖模型的rest接口测试用例生成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032570A (zh) * 2021-04-12 2021-06-25 武汉工程大学 一种基于ATAE-BiGRU的文本方面情感分类方法及系统
CN113157913A (zh) * 2021-01-30 2021-07-23 暨南大学 一种基于社会新闻数据集的伦理行为判别方法
CN113220890A (zh) * 2021-06-10 2021-08-06 长春工业大学 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157913A (zh) * 2021-01-30 2021-07-23 暨南大学 一种基于社会新闻数据集的伦理行为判别方法
CN113032570A (zh) * 2021-04-12 2021-06-25 武汉工程大学 一种基于ATAE-BiGRU的文本方面情感分类方法及系统
CN113220890A (zh) * 2021-06-10 2021-08-06 长春工业大学 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115098389A (zh) * 2022-07-05 2022-09-23 四川大学 一种基于依赖模型的rest接口测试用例生成方法
CN115098389B (zh) * 2022-07-05 2024-06-07 四川大学 一种基于依赖模型的rest接口测试用例生成方法

Similar Documents

Publication Publication Date Title
CN111177394B (zh) 基于句法注意力神经网络的知识图谱关系数据分类方法
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN111897908A (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
CN109684642B (zh) 一种结合页面解析规则和nlp文本向量化的摘要提取方法
CN113268995B (zh) 中文学术关键词抽取方法、装置和存储介质
CN106569998A (zh) 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN111143563A (zh) 基于bert与lstm及cnn融合的文本分类方法
CN113220890A (zh) 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法
CN109325114A (zh) 一种融合统计特征与Attention机制的文本分类算法
CN110276069A (zh) 一种中国盲文错误自动检测方法、系统及存储介质
CN111967267B (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
CN102956231A (zh) 基于半自动校正的语音关键信息记录装置及方法
CN114429132A (zh) 一种基于混合格自注意力网络的命名实体识别方法和装置
CN116258137A (zh) 文本纠错方法、装置、设备和存储介质
CN114970503A (zh) 一种基于预训练的字音字形知识增强的中文拼写纠正方法
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN113886562A (zh) 一种ai简历筛选方法、系统、设备和存储介质
CN114169447B (zh) 基于自注意力卷积双向门控循环单元网络的事件检测方法
CN115422939A (zh) 一种基于大数据的细粒度商品命名实体识别方法
CN111460147A (zh) 一种基于语义增强的标题短文本分类方法
CN117094325B (zh) 水稻病虫害领域命名实体识别方法
CN113987171A (zh) 基于预训练模型变种的新闻文本分类方法及系统
Hua et al. A character-level method for text classification
CN114781356B (zh) 一种基于输入共享的文本摘要生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination