CN113095079A - 基于bert的自适应分层输出的中文分词方法 - Google Patents
基于bert的自适应分层输出的中文分词方法 Download PDFInfo
- Publication number
- CN113095079A CN113095079A CN202110617100.9A CN202110617100A CN113095079A CN 113095079 A CN113095079 A CN 113095079A CN 202110617100 A CN202110617100 A CN 202110617100A CN 113095079 A CN113095079 A CN 113095079A
- Authority
- CN
- China
- Prior art keywords
- model
- layer
- preset
- sequence
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000011218 segmentation Effects 0.000 title claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000004821 distillation Methods 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 230000008014 freezing Effects 0.000 claims abstract description 6
- 238000007710 freezing Methods 0.000 claims abstract description 6
- 238000012360 testing method Methods 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims 1
- 230000010365 information processing Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 8
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种基于BERT的自适应分层输出的中文分词方法,属于中文信息处理技术领域。该方法包括:对已标注的样本数据进行预处理,得到预处理后的文本序列和标签序列;将预处理后的文本序列输入预设的网络模型,并使用预设的损失函数和预处理后的标签序列对网络模型进行监督训练,得到主干模型;冻结主干网络模型参数,在模型的每一层后添加一个预设的分类器模型,逐层使用预设的损失函数和预处理后的标签序列对分类器进行监督训练,得到蒸馏模型;根据预设的速度调节方法,使用蒸馏模型对输入数据生成中文分词结果。相较于传统的BERT模型,可在不损失精度甚至提升精度的情况下,缩短模型推理时间。
Description
技术领域
本申请涉及中文文本智能处理技术,更具体地说,本申请涉及一种基于BERT的自适应分层输出的中文分词方法。
背景技术
中文分词问题是一个基础而又重要的研究课题。现代许多自然语言处理领域的应用,如机器翻译、自动文摘、信息抽取、语音识别等,都建立在分词技术的基础上。在上述等诸多任务中,中文分词往往是第一步操作。因此,中文分词的质量好坏往往直接影响着后续工作或高层任务的性能表现。
目前,中文分词任务的处理思路主要有3种:基于词典的方法(机械分词)、基于传统机器学习的方法和基于深度神经网络模型的方法。现有的深度神经网络模型已可以在中文分词任务上取得较好的表现,但是由于模型运行速度慢,并没有得到大规模实际应用。
发明内容
本申请的目的是解决上述技术问题。本申请提供了一种基于BERT的自适应分层输出的中文分词方法,可以自适应地判断输入样本应该在网络的哪一层输出,而不必全部走完整个网络模型。相较于传统的BERT模型,可在不损失精度甚至提升精度的情况下,缩短模型推理时间。本申请提供如下技术方案:
获取多组已标注的样本数据,每份样本数据包含一句以词语为单位间隔开的中文文本;
对所述样本数据进行预处理,得到预处理后的文本序列和标签序列;
将所述预处理后的文本序列输入预设的网络模型,并使用预设的损失函数和所述预处理后的标签序列对所述网络模型进行监督训练,得到主干模型;
冻结所述主干网络模型参数,在模型的每一层后添加一个预设的分类器模型,逐层使用预设的损失函数和所述预处理后的标签序列对分类器进行监督训练,得到蒸馏模型;
根据预设的速度调节方法,使用所述蒸馏模型对输入数据生成中文分词结果。
可选地,其中对所述样本数据进行预处理包括:
解析所述以词语为单位间隔开的中文文本中字符在其所在词语中的位置,位置分为词首、词中、词尾、单独成词4种;
为每个字符打上对应的位置标签,即B(词首)、M(词中)、E(词尾)、S(单独成词)中的一种,得到所述预处理后的标签序列;
去除所述以词语为单位间隔开的中文文本中的空格,得到所述预处理后的文本序列。
可选地,其中所述预设的网络模型,包括:
BERT-base网络、与所述BERT-base网络相连的多头自注意力层,以及与所述多头自注意力层相连的线性分类层。
可选地,其中所述预设的分类器模型,包括:
多头自注意力层,以及与所述多头自注意力层相连的线性分类层。
可选地,其中所述预设的损失函数为:
可选地,其中所述预设的速度调节方法包括:
设定一个取值在0到1之间的阈值,若输入数据所在的当前层分类器给出的结果的不确定度小于该阈值时,则直接在该层输出结果,而不继续通过后续的模型。
可选地,所述模型结果的不确定度通过下式表示:
可选地,其中所述方法还包括:
在训练得到所述主干模型和蒸馏模型后,使用测试集对所述主干模型和蒸馏模型进行测试,以确定所述主干模型和蒸馏模型的性能。
可选地,其中所述将预处理后的文本序列输入预设的网络模型,并使用预设的损失函数和所述样本数据的标签结果对所述网络模型进行监督训练,得到主干模型之前,还包括:
通过BERT-base预训练模型初始化参数。
本申请的有益效果至少包括:收集、整理多组以词语为单位间隔开的中文文本。接着对文本做预处理,根据每个字在词中的位置的不同,标记为B、M、E、S中的一种,得到标记序列,并将文本输入到包含BERT-base模型以及其后的多头自注意力层和线性分类层的主干模型中,取模型输出中概率最大的标签作为标注结果,即可得到模型的预测序列。使用文本和标记序列对主干模型进行训练,然后冻结主干模型参数,逐层训练主干模型每层后的分类器。设定阈值,根据每层分类器分类结果的不确定度自适应地判断输入样本应该在网络的哪一层输出,而不必走完整个网络模型。因此,相较于传统的BERT模型,可在不损失精度甚至提升精度的情况下,缩短模型推理时间。
本申请的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
通过结合附图对于本申请的示例性实施例进行描述,可以更好地理解本申请,在附图中:
图1是本申请一个实施例提供的基于BERT的自适应分层输出的中文分词方法的流程图;
图2是本申请一个实施例提供的主干模型和蒸馏模型的网络结构示意图。
具体实施方式
下面结合附图和实施例,对本申请的具体实施方式作进一步详细描述,以令本领域技术人员参照说明书文字能够据以实施。
需要指出的是,在这些实施方式的具体描述过程中,为了进行简明扼要的描述,本说明书不可能对实际的实施方式的所有特征均作详尽的描述。应当可以理解的是,在任意一种实施方式的实际实施过程中,正如在任意一个工程项目或者设计项目的过程中,为了实现开发者的具体目标,为了满足系统相关的或者商业相关的限制,常常会做出各种各样的具体决策,而这也会从一种实施方式到另一种实施方式之间发生改变。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请的内容不充分。
首先,对本申请涉及的若干名词进行介绍。
BERT(Bidirectional Encoder Representations from Transformers):是由谷歌研究团队的Devlin等于2018年提出的一种基于Transformer结构的语言表示模型。作为一个预训练模型,BERT的性能十分强大,一问世就刷新了11项自然语言处理领域任务的性能记录。BERT模型由输入层、堆叠的Transformer结构和输出层组成,其中最为关键便是堆叠的多个Transformer结构。根据包含的Transformer数量,BERT模型可分为BERT-base(12层)和BERT-large(24层)两种。Transformer模型是由谷歌研究团队的Vaswani等于2017年提出的一种编码器-解码器(Encoder-Decoder)结构的模型,现广泛应用于机器翻译等领域。BERT中堆叠的便是Transformer模型的编码器部分。Transformer模型中大量使用了自注意力(Self-Attention)机制和多头注意力(Multi-Head Attention)机制;前者可以充分捕捉序列内部的结构和依赖关系,比如常见代词指代的事物,后者则可以让模型关注到不同位置的不同表示子空间中的信息。Transformer模型也是第一个完全使用注意力(Attention)机制搭建的模型,摆脱了传统的编码器-解码器结构必须含有CNN或RNN的固定模式,既可以解决长期依赖问题,也可以很好地实现并行化计算。
图1是本申请一个实施例提供的基于BERT的自适应分层输出的中文分词方法的流程图。该方法至少包括以下几个步骤:
步骤S101,获取多组已标注的样本数据,每份样本数据包含一句以词语为单位间隔开的中文文本。
示意性地,可采用Ontonotes 5.0作为样本数据,划分为训练集、验证集和测试集。
步骤S102,对所述样本数据进行预处理,得到预处理后的文本序列和标签序列。
对样本数据进行预处理用以得到适配于网络模型的输入。
本实施例中,对样本数据进行预处理,得到预处理后的文本序列和标签序列,包括:解析所述以词语为单位间隔开的中文文本中字符在其所在词语中的位置,位置分为词首、词中、词尾、单独成词4种;为每个字符打上对应的位置标签,即B(词首)、M(词中)、E(词尾)、S(单独成词)中的一种,得到所述预处理后的标签序列;去除所述以词语为单位间隔开的中文文本中的空格,得到所述预处理后的文本序列。
步骤S103,将所述预处理后的文本序列输入预设的网络模型,并使用预设的损失函数和所述预处理后的标签序列对所述网络模型进行监督训练,得到主干模型。
参考图2所示的预设的网络模型,主干模型包括:BERT-base网络、与BERT-base网络相连的多头自注意力层,以及与多头自注意力层相连的线性分类层。
本实施例中,在训练前,即本步骤前还要通过BERT-base预训练模型初始化参数。
在训练时,使用初始学习率(如0.00001)、使用Adam(Adaptive Moments)优化器来优化网络模型的网络参数,使用交叉熵(Cross Entropy)作为训练的损失函数,在训练集上迭代5次。
其中,所述预设的损失函数通过下式表示:
可选地,设置warm-up参数为0.1。
可选地,取模型输出概率最大的标签作为分类结果。
可选地,在训练得到主干模型后,使用测试集对中文分词模型进行测试,以确定分词模型的性能。
步骤S104,冻结所述主干网络模型参数,在模型的每一层后添加一个预设的分类器模型,逐层使用预设的损失函数和所述预处理后的标签序列对分类器进行监督训练,得到蒸馏模型。
参考图2所示的预设的网络模型,分类器模型包括:多头自注意力层,以及与多头自注意力层相连的线性分类层。
训练过程与步骤3类似,每层的初始学习率设置为0.0005-0.005不等,在训练集上迭代3-15次不等。
步骤S105,根据预设的速度调节方法,使用所述蒸馏模型对输入数据生成中文分词结果。
本实施例中,预设的速度调节方法包括:设定一个取值在0到1之间的阈值,若输入数据所在的当前层分类器给出的结果的不确定度小于该阈值时,则直接在该层输出结果,而不继续通过后续的模型。模型结果的不确定度通过下式表示:
可选地,在训练得到主干模型和蒸馏模型后,设定不同的阈值,使用测试集对中文分词模型进行测试,以确定分词模型的性能。
表1为不同方法、不同阈值在测试集上的性能比较,测试时批的大小统一设置为1。可以看出,相较于传统的BERT模型,基于BERT的自适应分层输出的中文分词方法可在不损失精度甚至提升精度的情况下,缩短模型推理时间。阈值设定为0.7时,仅用66%的时间,还可获得0.41%的性能提升。或者,能在仅轻微损失精度的情况下,获得更短的模型推理时间。阈值设定为0.8时,性能损失仅0.16%,推理时间缩短至56%。
表1
其中,运行时间为3次运行的平均值,F1值可综合考察模型的中文分词性能。
综上所述,本实施例提供的基于BERT的自适应分层输出的中文分词方法,收集、整理多组以词语为单位间隔开的中文文本。接着对文本做预处理,根据每个字在词中的位置的不同,标记为B、M、E、S中的一种,得到标记序列,并将文本输入到包含BERT-base模型以及其后的多头自注意力层和线性分类层的主干模型中,取模型输出中概率最大的标签作为标注结果,即可得到模型的预测序列。使用文本和标记序列对主干模型进行训练,然后冻结主干模型参数,逐层训练主干模型每层后的分类器。设定阈值,根据每层分类器分类结果的不确定度自适应地判断输入样本应该在网络的哪一层输出,而不必走完整个网络模型。因此,相较于传统的BERT模型,可在不损失精度甚至提升精度的情况下,缩短模型推理时间。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本申请的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本申请的说明的情况下运用他们的基本编程技能就能实现的。
因此,本申请的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本申请的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本申请,并且存储有这样的程序产品的存储介质也构成本申请。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。
还需要指出的是,在本申请的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
除非另作定义,权利要求书和说明书中使用的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“一个”或者“一”等类似词语并不表示数量限制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的元件或者物件及其等同元件,并不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,也不限于是直接的还是间接的连接。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (9)
1.一种基于BERT的自适应分层输出的中文分词方法,其包括:
获取多组已标注的样本数据,每份样本数据包含一句以词语为单位间隔开的中文文本;
对所述样本数据进行预处理,得到预处理后的文本序列和标签序列;
将所述预处理后的文本序列输入预设的网络模型,并使用预设的损失函数和所述预处理后的标签序列对所述网络模型进行监督训练,得到主干模型;
冻结所述主干网络模型参数,在模型的每一层后添加一个预设的分类器模型,逐层使用预设的损失函数和所述预处理后的标签序列对分类器进行监督训练,得到蒸馏模型;
根据预设的速度调节方法,使用所述蒸馏模型对输入数据生成中文分词结果。
2.根据权利要求1所述的方法,其中对所述样本数据进行预处理包括:
解析所述以词语为单位间隔开的中文文本中字符在其所在词语中的位置,位置分为词首、词中、词尾、单独成词4种;
为每个字符打上对应的位置标签,即B(词首)、M(词中)、E(词尾)、S(单独成词)中的一种,得到所述预处理后的标签序列;
去除所述以词语为单位间隔开的中文文本中的空格,得到所述预处理后的文本序列。
3.根据权利要求1所述的方法,其中所述预设的网络模型,包括:
BERT-base网络、与所述BERT-base网络相连的多头自注意力层,以及与所述多头自注意力层相连的线性分类层。
4.根据权利要求1所述的方法,其中所述预设的分类器模型,包括:
多头自注意力层,以及与所述多头自注意力层相连的线性分类层。
6.根据权利要求1所述的方法,其中所述预设的速度调节方法包括:
设定一个取值在0到1之间的阈值,若输入数据所在的当前层分类器给出的结果的不确定度小于该阈值时,则直接在该层输出结果,而不继续通过后续的模型。
8.根据权利要求1所述的方法,其中所述方法还包括:
在训练得到所述主干模型和蒸馏模型后,使用测试集对所述主干模型和蒸馏模型进行测试,以确定所述主干模型和蒸馏模型的性能。
9.根据权利要求1所述的方法,其中所述将预处理后的文本序列输入预设的网络模型,并使用预设的损失函数和所述样本数据的标签结果对所述网络模型进行监督训练,得到主干模型之前,还包括:
通过BERT-base预训练模型初始化参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110617100.9A CN113095079A (zh) | 2021-06-03 | 2021-06-03 | 基于bert的自适应分层输出的中文分词方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110617100.9A CN113095079A (zh) | 2021-06-03 | 2021-06-03 | 基于bert的自适应分层输出的中文分词方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113095079A true CN113095079A (zh) | 2021-07-09 |
Family
ID=76664559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110617100.9A Pending CN113095079A (zh) | 2021-06-03 | 2021-06-03 | 基于bert的自适应分层输出的中文分词方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113095079A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113836903A (zh) * | 2021-08-17 | 2021-12-24 | 淮阴工学院 | 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111291836A (zh) * | 2020-03-31 | 2020-06-16 | 中国科学院计算技术研究所 | 一种生成学生网络模型的方法 |
CN111931057A (zh) * | 2020-08-18 | 2020-11-13 | 中国科学院深圳先进技术研究院 | 一种自适应输出的序列推荐方法和系统 |
CN112364926A (zh) * | 2020-11-17 | 2021-02-12 | 苏州大学 | 基于ResNet-50时间压缩的胃镜图片分类方法、装置和存储介质 |
-
2021
- 2021-06-03 CN CN202110617100.9A patent/CN113095079A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111291836A (zh) * | 2020-03-31 | 2020-06-16 | 中国科学院计算技术研究所 | 一种生成学生网络模型的方法 |
CN111931057A (zh) * | 2020-08-18 | 2020-11-13 | 中国科学院深圳先进技术研究院 | 一种自适应输出的序列推荐方法和系统 |
CN112364926A (zh) * | 2020-11-17 | 2021-02-12 | 苏州大学 | 基于ResNet-50时间压缩的胃镜图片分类方法、装置和存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113836903A (zh) * | 2021-08-17 | 2021-12-24 | 淮阴工学院 | 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置 |
CN113836903B (zh) * | 2021-08-17 | 2023-07-18 | 淮阴工学院 | 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109766277B (zh) | 一种基于迁移学习与dnn的软件故障诊断方法 | |
CN111738004B (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN111506732B (zh) | 一种文本多层次标签分类方法 | |
CN113806494B (zh) | 一种基于预训练语言模型的命名实体识别方法 | |
CN113806547B (zh) | 一种基于图模型的深度学习多标签文本分类方法 | |
CN112100377B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN112732872B (zh) | 面向生物医学文本的基于主题注意机制的多标签分类方法 | |
CN110909144A (zh) | 问答对话方法、装置、电子设备及计算机可读存储介质 | |
CN110851594A (zh) | 一种基于多通道深度学习模型的文本分类方法及其装置 | |
Çakır et al. | Multi-task regularization based on infrequent classes for audio captioning | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN113672931A (zh) | 一种基于预训练的软件漏洞自动检测方法及装置 | |
CN114416979A (zh) | 一种文本查询方法、设备和存储介质 | |
CN116303977B (zh) | 一种基于特征分类的问答方法及系统 | |
CN111026845A (zh) | 一种获取多层次上下文语义的文本分类方法 | |
CN118171149B (zh) | 标签分类方法、装置、设备、存储介质和计算机程序产品 | |
CN111191033A (zh) | 一种基于分类效用的开集分类方法 | |
CN114937465A (zh) | 一种基于自监督学习的语音情感识别方法和计算机设备 | |
CN113095079A (zh) | 基于bert的自适应分层输出的中文分词方法 | |
CN117131877A (zh) | 一种基于对比学习的文本检测方法及系统 | |
CN117033464A (zh) | 一种基于聚类的日志并行解析算法及应用 | |
Tanti et al. | Transfer learning from language models to image caption generators: Better models may not transfer better | |
CN115860002A (zh) | 一种基于事件抽取的作战任务生成方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210709 |
|
RJ01 | Rejection of invention patent application after publication |