CN113095079A - 基于bert的自适应分层输出的中文分词方法 - Google Patents

基于bert的自适应分层输出的中文分词方法 Download PDF

Info

Publication number
CN113095079A
CN113095079A CN202110617100.9A CN202110617100A CN113095079A CN 113095079 A CN113095079 A CN 113095079A CN 202110617100 A CN202110617100 A CN 202110617100A CN 113095079 A CN113095079 A CN 113095079A
Authority
CN
China
Prior art keywords
model
layer
preset
sequence
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110617100.9A
Other languages
English (en)
Inventor
李寿山
俞旸
张栋
周国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202110617100.9A priority Critical patent/CN113095079A/zh
Publication of CN113095079A publication Critical patent/CN113095079A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种基于BERT的自适应分层输出的中文分词方法,属于中文信息处理技术领域。该方法包括:对已标注的样本数据进行预处理,得到预处理后的文本序列和标签序列;将预处理后的文本序列输入预设的网络模型,并使用预设的损失函数和预处理后的标签序列对网络模型进行监督训练,得到主干模型;冻结主干网络模型参数,在模型的每一层后添加一个预设的分类器模型,逐层使用预设的损失函数和预处理后的标签序列对分类器进行监督训练,得到蒸馏模型;根据预设的速度调节方法,使用蒸馏模型对输入数据生成中文分词结果。相较于传统的BERT模型,可在不损失精度甚至提升精度的情况下,缩短模型推理时间。

Description

基于BERT的自适应分层输出的中文分词方法
技术领域
本申请涉及中文文本智能处理技术,更具体地说,本申请涉及一种基于BERT的自适应分层输出的中文分词方法。
背景技术
中文分词问题是一个基础而又重要的研究课题。现代许多自然语言处理领域的应用,如机器翻译、自动文摘、信息抽取、语音识别等,都建立在分词技术的基础上。在上述等诸多任务中,中文分词往往是第一步操作。因此,中文分词的质量好坏往往直接影响着后续工作或高层任务的性能表现。
目前,中文分词任务的处理思路主要有3种:基于词典的方法(机械分词)、基于传统机器学习的方法和基于深度神经网络模型的方法。现有的深度神经网络模型已可以在中文分词任务上取得较好的表现,但是由于模型运行速度慢,并没有得到大规模实际应用。
发明内容
本申请的目的是解决上述技术问题。本申请提供了一种基于BERT的自适应分层输出的中文分词方法,可以自适应地判断输入样本应该在网络的哪一层输出,而不必全部走完整个网络模型。相较于传统的BERT模型,可在不损失精度甚至提升精度的情况下,缩短模型推理时间。本申请提供如下技术方案:
获取多组已标注的样本数据,每份样本数据包含一句以词语为单位间隔开的中文文本;
对所述样本数据进行预处理,得到预处理后的文本序列和标签序列;
将所述预处理后的文本序列输入预设的网络模型,并使用预设的损失函数和所述预处理后的标签序列对所述网络模型进行监督训练,得到主干模型;
冻结所述主干网络模型参数,在模型的每一层后添加一个预设的分类器模型,逐层使用预设的损失函数和所述预处理后的标签序列对分类器进行监督训练,得到蒸馏模型;
根据预设的速度调节方法,使用所述蒸馏模型对输入数据生成中文分词结果。
可选地,其中对所述样本数据进行预处理包括:
解析所述以词语为单位间隔开的中文文本中字符在其所在词语中的位置,位置分为词首、词中、词尾、单独成词4种;
为每个字符打上对应的位置标签,即B(词首)、M(词中)、E(词尾)、S(单独成词)中的一种,得到所述预处理后的标签序列;
去除所述以词语为单位间隔开的中文文本中的空格,得到所述预处理后的文本序列。
可选地,其中所述预设的网络模型,包括:
BERT-base网络、与所述BERT-base网络相连的多头自注意力层,以及与所述多头自注意力层相连的线性分类层。
可选地,其中所述预设的分类器模型,包括:
多头自注意力层,以及与所述多头自注意力层相连的线性分类层。
可选地,其中所述预设的损失函数为:
Figure 390313DEST_PATH_IMAGE001
其中,
Figure 396577DEST_PATH_IMAGE002
为文本序列,
Figure 646293DEST_PATH_IMAGE003
为标签序列,
Figure 631567DEST_PATH_IMAGE004
Figure 144588DEST_PATH_IMAGE002
中的字符,
Figure 215312DEST_PATH_IMAGE005
为标签集合(包含B、M、E、S的集合),
Figure 268718DEST_PATH_IMAGE006
Figure 295449DEST_PATH_IMAGE005
中的标签,
Figure 776109DEST_PATH_IMAGE007
表示字符
Figure 68550DEST_PATH_IMAGE004
Figure 597752DEST_PATH_IMAGE006
标签的真实概率,取值为0或1,
Figure 292038DEST_PATH_IMAGE008
表示模型将字符
Figure 943599DEST_PATH_IMAGE004
判断为
Figure 988916DEST_PATH_IMAGE006
标签的概率。
可选地,其中所述预设的速度调节方法包括:
设定一个取值在0到1之间的阈值,若输入数据所在的当前层分类器给出的结果的不确定度小于该阈值时,则直接在该层输出结果,而不继续通过后续的模型。
可选地,所述模型结果的不确定度通过下式表示:
Figure 338120DEST_PATH_IMAGE009
其中,
Figure 886913DEST_PATH_IMAGE002
为文本序列,
Figure 974954DEST_PATH_IMAGE004
Figure 914092DEST_PATH_IMAGE002
中的字符,
Figure 112992DEST_PATH_IMAGE005
为标签集合(包含B、M、E、S的集合),
Figure 516291DEST_PATH_IMAGE006
Figure 962185DEST_PATH_IMAGE005
中的标签,
Figure 716514DEST_PATH_IMAGE010
表示第
Figure 453526DEST_PATH_IMAGE011
层的分类器将字符
Figure 180174DEST_PATH_IMAGE004
判断为
Figure 610018DEST_PATH_IMAGE006
标签的概率。
可选地,其中所述方法还包括:
在训练得到所述主干模型和蒸馏模型后,使用测试集对所述主干模型和蒸馏模型进行测试,以确定所述主干模型和蒸馏模型的性能。
可选地,其中所述将预处理后的文本序列输入预设的网络模型,并使用预设的损失函数和所述样本数据的标签结果对所述网络模型进行监督训练,得到主干模型之前,还包括:
通过BERT-base预训练模型初始化参数。
本申请的有益效果至少包括:收集、整理多组以词语为单位间隔开的中文文本。接着对文本做预处理,根据每个字在词中的位置的不同,标记为B、M、E、S中的一种,得到标记序列,并将文本输入到包含BERT-base模型以及其后的多头自注意力层和线性分类层的主干模型中,取模型输出中概率最大的标签作为标注结果,即可得到模型的预测序列。使用文本和标记序列对主干模型进行训练,然后冻结主干模型参数,逐层训练主干模型每层后的分类器。设定阈值,根据每层分类器分类结果的不确定度自适应地判断输入样本应该在网络的哪一层输出,而不必走完整个网络模型。因此,相较于传统的BERT模型,可在不损失精度甚至提升精度的情况下,缩短模型推理时间。
本申请的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
通过结合附图对于本申请的示例性实施例进行描述,可以更好地理解本申请,在附图中:
图1是本申请一个实施例提供的基于BERT的自适应分层输出的中文分词方法的流程图;
图2是本申请一个实施例提供的主干模型和蒸馏模型的网络结构示意图。
具体实施方式
下面结合附图和实施例,对本申请的具体实施方式作进一步详细描述,以令本领域技术人员参照说明书文字能够据以实施。
需要指出的是,在这些实施方式的具体描述过程中,为了进行简明扼要的描述,本说明书不可能对实际的实施方式的所有特征均作详尽的描述。应当可以理解的是,在任意一种实施方式的实际实施过程中,正如在任意一个工程项目或者设计项目的过程中,为了实现开发者的具体目标,为了满足系统相关的或者商业相关的限制,常常会做出各种各样的具体决策,而这也会从一种实施方式到另一种实施方式之间发生改变。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请的内容不充分。
首先,对本申请涉及的若干名词进行介绍。
BERT(Bidirectional Encoder Representations from Transformers):是由谷歌研究团队的Devlin等于2018年提出的一种基于Transformer结构的语言表示模型。作为一个预训练模型,BERT的性能十分强大,一问世就刷新了11项自然语言处理领域任务的性能记录。BERT模型由输入层、堆叠的Transformer结构和输出层组成,其中最为关键便是堆叠的多个Transformer结构。根据包含的Transformer数量,BERT模型可分为BERT-base(12层)和BERT-large(24层)两种。Transformer模型是由谷歌研究团队的Vaswani等于2017年提出的一种编码器-解码器(Encoder-Decoder)结构的模型,现广泛应用于机器翻译等领域。BERT中堆叠的便是Transformer模型的编码器部分。Transformer模型中大量使用了自注意力(Self-Attention)机制和多头注意力(Multi-Head Attention)机制;前者可以充分捕捉序列内部的结构和依赖关系,比如常见代词指代的事物,后者则可以让模型关注到不同位置的不同表示子空间中的信息。Transformer模型也是第一个完全使用注意力(Attention)机制搭建的模型,摆脱了传统的编码器-解码器结构必须含有CNN或RNN的固定模式,既可以解决长期依赖问题,也可以很好地实现并行化计算。
图1是本申请一个实施例提供的基于BERT的自适应分层输出的中文分词方法的流程图。该方法至少包括以下几个步骤:
步骤S101,获取多组已标注的样本数据,每份样本数据包含一句以词语为单位间隔开的中文文本。
示意性地,可采用Ontonotes 5.0作为样本数据,划分为训练集、验证集和测试集。
步骤S102,对所述样本数据进行预处理,得到预处理后的文本序列和标签序列。
对样本数据进行预处理用以得到适配于网络模型的输入。
本实施例中,对样本数据进行预处理,得到预处理后的文本序列和标签序列,包括:解析所述以词语为单位间隔开的中文文本中字符在其所在词语中的位置,位置分为词首、词中、词尾、单独成词4种;为每个字符打上对应的位置标签,即B(词首)、M(词中)、E(词尾)、S(单独成词)中的一种,得到所述预处理后的标签序列;去除所述以词语为单位间隔开的中文文本中的空格,得到所述预处理后的文本序列。
步骤S103,将所述预处理后的文本序列输入预设的网络模型,并使用预设的损失函数和所述预处理后的标签序列对所述网络模型进行监督训练,得到主干模型。
参考图2所示的预设的网络模型,主干模型包括:BERT-base网络、与BERT-base网络相连的多头自注意力层,以及与多头自注意力层相连的线性分类层。
本实施例中,在训练前,即本步骤前还要通过BERT-base预训练模型初始化参数。
在训练时,使用初始学习率(如0.00001)、使用Adam(Adaptive Moments)优化器来优化网络模型的网络参数,使用交叉熵(Cross Entropy)作为训练的损失函数,在训练集上迭代5次。
其中,所述预设的损失函数通过下式表示:
Figure 586064DEST_PATH_IMAGE001
其中,
Figure 549603DEST_PATH_IMAGE002
为文本序列,
Figure 193074DEST_PATH_IMAGE003
为标签序列,
Figure 528241DEST_PATH_IMAGE004
Figure 257162DEST_PATH_IMAGE002
中的字符,
Figure 539239DEST_PATH_IMAGE005
为标签集合(包含B、M、E、S的集合),
Figure 37217DEST_PATH_IMAGE006
Figure 543284DEST_PATH_IMAGE005
中的标签,
Figure 680873DEST_PATH_IMAGE007
表示字符
Figure 563379DEST_PATH_IMAGE004
Figure 915863DEST_PATH_IMAGE006
标签的真实概率,取值为0或1,
Figure 796094DEST_PATH_IMAGE008
表示模型将字符
Figure 234029DEST_PATH_IMAGE004
判断为
Figure 654646DEST_PATH_IMAGE006
标签的概率。
可选地,设置warm-up参数为0.1。
可选地,取模型输出概率最大的标签作为分类结果。
可选地,在训练得到主干模型后,使用测试集对中文分词模型进行测试,以确定分词模型的性能。
步骤S104,冻结所述主干网络模型参数,在模型的每一层后添加一个预设的分类器模型,逐层使用预设的损失函数和所述预处理后的标签序列对分类器进行监督训练,得到蒸馏模型。
参考图2所示的预设的网络模型,分类器模型包括:多头自注意力层,以及与多头自注意力层相连的线性分类层。
训练过程与步骤3类似,每层的初始学习率设置为0.0005-0.005不等,在训练集上迭代3-15次不等。
步骤S105,根据预设的速度调节方法,使用所述蒸馏模型对输入数据生成中文分词结果。
本实施例中,预设的速度调节方法包括:设定一个取值在0到1之间的阈值,若输入数据所在的当前层分类器给出的结果的不确定度小于该阈值时,则直接在该层输出结果,而不继续通过后续的模型。模型结果的不确定度通过下式表示:
Figure 127215DEST_PATH_IMAGE009
其中,
Figure 929080DEST_PATH_IMAGE002
为文本序列,
Figure 854311DEST_PATH_IMAGE004
Figure 78619DEST_PATH_IMAGE002
中的字符,
Figure 77799DEST_PATH_IMAGE005
为标签集合(包含B、M、E、S的集合),
Figure 362150DEST_PATH_IMAGE006
Figure 774677DEST_PATH_IMAGE005
中的标签,
Figure 724047DEST_PATH_IMAGE010
表示第
Figure 905630DEST_PATH_IMAGE011
层的分类器将字符
Figure 360882DEST_PATH_IMAGE004
判断为
Figure 198388DEST_PATH_IMAGE006
标签的概率。
可选地,在训练得到主干模型和蒸馏模型后,设定不同的阈值,使用测试集对中文分词模型进行测试,以确定分词模型的性能。
表1为不同方法、不同阈值在测试集上的性能比较,测试时批的大小统一设置为1。可以看出,相较于传统的BERT模型,基于BERT的自适应分层输出的中文分词方法可在不损失精度甚至提升精度的情况下,缩短模型推理时间。阈值设定为0.7时,仅用66%的时间,还可获得0.41%的性能提升。或者,能在仅轻微损失精度的情况下,获得更短的模型推理时间。阈值设定为0.8时,性能损失仅0.16%,推理时间缩短至56%。
表1
Figure 764498DEST_PATH_IMAGE012
其中,运行时间为3次运行的平均值,F1值可综合考察模型的中文分词性能。
综上所述,本实施例提供的基于BERT的自适应分层输出的中文分词方法,收集、整理多组以词语为单位间隔开的中文文本。接着对文本做预处理,根据每个字在词中的位置的不同,标记为B、M、E、S中的一种,得到标记序列,并将文本输入到包含BERT-base模型以及其后的多头自注意力层和线性分类层的主干模型中,取模型输出中概率最大的标签作为标注结果,即可得到模型的预测序列。使用文本和标记序列对主干模型进行训练,然后冻结主干模型参数,逐层训练主干模型每层后的分类器。设定阈值,根据每层分类器分类结果的不确定度自适应地判断输入样本应该在网络的哪一层输出,而不必走完整个网络模型。因此,相较于传统的BERT模型,可在不损失精度甚至提升精度的情况下,缩短模型推理时间。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本申请的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本申请的说明的情况下运用他们的基本编程技能就能实现的。
因此,本申请的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本申请的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本申请,并且存储有这样的程序产品的存储介质也构成本申请。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。
还需要指出的是,在本申请的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
除非另作定义,权利要求书和说明书中使用的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“一个”或者“一”等类似词语并不表示数量限制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的元件或者物件及其等同元件,并不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,也不限于是直接的还是间接的连接。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (9)

1.一种基于BERT的自适应分层输出的中文分词方法,其包括:
获取多组已标注的样本数据,每份样本数据包含一句以词语为单位间隔开的中文文本;
对所述样本数据进行预处理,得到预处理后的文本序列和标签序列;
将所述预处理后的文本序列输入预设的网络模型,并使用预设的损失函数和所述预处理后的标签序列对所述网络模型进行监督训练,得到主干模型;
冻结所述主干网络模型参数,在模型的每一层后添加一个预设的分类器模型,逐层使用预设的损失函数和所述预处理后的标签序列对分类器进行监督训练,得到蒸馏模型;
根据预设的速度调节方法,使用所述蒸馏模型对输入数据生成中文分词结果。
2.根据权利要求1所述的方法,其中对所述样本数据进行预处理包括:
解析所述以词语为单位间隔开的中文文本中字符在其所在词语中的位置,位置分为词首、词中、词尾、单独成词4种;
为每个字符打上对应的位置标签,即B(词首)、M(词中)、E(词尾)、S(单独成词)中的一种,得到所述预处理后的标签序列;
去除所述以词语为单位间隔开的中文文本中的空格,得到所述预处理后的文本序列。
3.根据权利要求1所述的方法,其中所述预设的网络模型,包括:
BERT-base网络、与所述BERT-base网络相连的多头自注意力层,以及与所述多头自注意力层相连的线性分类层。
4.根据权利要求1所述的方法,其中所述预设的分类器模型,包括:
多头自注意力层,以及与所述多头自注意力层相连的线性分类层。
5.根据权利要求1所述的方法,其中所述预设的损失函数为:
Figure 229522DEST_PATH_IMAGE001
其中,
Figure 963254DEST_PATH_IMAGE002
为文本序列,
Figure 358464DEST_PATH_IMAGE003
为标签序列,
Figure 907257DEST_PATH_IMAGE004
Figure 119932DEST_PATH_IMAGE002
中的字符,
Figure 386965DEST_PATH_IMAGE005
为标签集合(包含B、M、E、S的集合),
Figure 320286DEST_PATH_IMAGE006
Figure 926848DEST_PATH_IMAGE005
中的标签,
Figure 185791DEST_PATH_IMAGE007
表示字符
Figure 674541DEST_PATH_IMAGE004
Figure 365548DEST_PATH_IMAGE006
标签的真实概率,取值为0或1,
Figure 764299DEST_PATH_IMAGE008
表示模型将字符
Figure 866248DEST_PATH_IMAGE004
判断为
Figure 784570DEST_PATH_IMAGE006
标签的概率。
6.根据权利要求1所述的方法,其中所述预设的速度调节方法包括:
设定一个取值在0到1之间的阈值,若输入数据所在的当前层分类器给出的结果的不确定度小于该阈值时,则直接在该层输出结果,而不继续通过后续的模型。
7.根据权利要求6所述的方法,其中所述模型结果的不确定度通过下式表示:
Figure 262956DEST_PATH_IMAGE009
其中,
Figure 827798DEST_PATH_IMAGE002
为文本序列,
Figure 428544DEST_PATH_IMAGE004
Figure 517985DEST_PATH_IMAGE002
中的字符,
Figure 862378DEST_PATH_IMAGE005
为标签集合(包含B、M、E、S的集合),
Figure 484990DEST_PATH_IMAGE006
Figure 991057DEST_PATH_IMAGE005
中的标签,
Figure 207275DEST_PATH_IMAGE010
表示第
Figure 155027DEST_PATH_IMAGE011
层的分类器将字符
Figure 8976DEST_PATH_IMAGE004
判断为
Figure 810578DEST_PATH_IMAGE006
标签的概率。
8.根据权利要求1所述的方法,其中所述方法还包括:
在训练得到所述主干模型和蒸馏模型后,使用测试集对所述主干模型和蒸馏模型进行测试,以确定所述主干模型和蒸馏模型的性能。
9.根据权利要求1所述的方法,其中所述将预处理后的文本序列输入预设的网络模型,并使用预设的损失函数和所述样本数据的标签结果对所述网络模型进行监督训练,得到主干模型之前,还包括:
通过BERT-base预训练模型初始化参数。
CN202110617100.9A 2021-06-03 2021-06-03 基于bert的自适应分层输出的中文分词方法 Pending CN113095079A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110617100.9A CN113095079A (zh) 2021-06-03 2021-06-03 基于bert的自适应分层输出的中文分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110617100.9A CN113095079A (zh) 2021-06-03 2021-06-03 基于bert的自适应分层输出的中文分词方法

Publications (1)

Publication Number Publication Date
CN113095079A true CN113095079A (zh) 2021-07-09

Family

ID=76664559

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110617100.9A Pending CN113095079A (zh) 2021-06-03 2021-06-03 基于bert的自适应分层输出的中文分词方法

Country Status (1)

Country Link
CN (1) CN113095079A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836903A (zh) * 2021-08-17 2021-12-24 淮阴工学院 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291836A (zh) * 2020-03-31 2020-06-16 中国科学院计算技术研究所 一种生成学生网络模型的方法
CN111931057A (zh) * 2020-08-18 2020-11-13 中国科学院深圳先进技术研究院 一种自适应输出的序列推荐方法和系统
CN112364926A (zh) * 2020-11-17 2021-02-12 苏州大学 基于ResNet-50时间压缩的胃镜图片分类方法、装置和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291836A (zh) * 2020-03-31 2020-06-16 中国科学院计算技术研究所 一种生成学生网络模型的方法
CN111931057A (zh) * 2020-08-18 2020-11-13 中国科学院深圳先进技术研究院 一种自适应输出的序列推荐方法和系统
CN112364926A (zh) * 2020-11-17 2021-02-12 苏州大学 基于ResNet-50时间压缩的胃镜图片分类方法、装置和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836903A (zh) * 2021-08-17 2021-12-24 淮阴工学院 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置
CN113836903B (zh) * 2021-08-17 2023-07-18 淮阴工学院 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置

Similar Documents

Publication Publication Date Title
CN109766277B (zh) 一种基于迁移学习与dnn的软件故障诊断方法
CN111738004B (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN111506732B (zh) 一种文本多层次标签分类方法
CN113806494B (zh) 一种基于预训练语言模型的命名实体识别方法
CN113806547B (zh) 一种基于图模型的深度学习多标签文本分类方法
CN112100377B (zh) 文本分类方法、装置、计算机设备和存储介质
CN112732872B (zh) 面向生物医学文本的基于主题注意机制的多标签分类方法
CN110909144A (zh) 问答对话方法、装置、电子设备及计算机可读存储介质
CN110851594A (zh) 一种基于多通道深度学习模型的文本分类方法及其装置
Çakır et al. Multi-task regularization based on infrequent classes for audio captioning
CN116661805B (zh) 代码表示的生成方法和装置、存储介质及电子设备
CN113672931A (zh) 一种基于预训练的软件漏洞自动检测方法及装置
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN116303977B (zh) 一种基于特征分类的问答方法及系统
CN111026845A (zh) 一种获取多层次上下文语义的文本分类方法
CN118171149B (zh) 标签分类方法、装置、设备、存储介质和计算机程序产品
CN111191033A (zh) 一种基于分类效用的开集分类方法
CN114937465A (zh) 一种基于自监督学习的语音情感识别方法和计算机设备
CN113095079A (zh) 基于bert的自适应分层输出的中文分词方法
CN117131877A (zh) 一种基于对比学习的文本检测方法及系统
CN117033464A (zh) 一种基于聚类的日志并行解析算法及应用
Tanti et al. Transfer learning from language models to image caption generators: Better models may not transfer better
CN115860002A (zh) 一种基于事件抽取的作战任务生成方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210709

RJ01 Rejection of invention patent application after publication