CN113032559B - 一种用于低资源黏着性语言文本分类的语言模型微调方法 - Google Patents

一种用于低资源黏着性语言文本分类的语言模型微调方法 Download PDF

Info

Publication number
CN113032559B
CN113032559B CN202110277553.1A CN202110277553A CN113032559B CN 113032559 B CN113032559 B CN 113032559B CN 202110277553 A CN202110277553 A CN 202110277553A CN 113032559 B CN113032559 B CN 113032559B
Authority
CN
China
Prior art keywords
language
fine
low
resource
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110277553.1A
Other languages
English (en)
Other versions
CN113032559A (zh
Inventor
柯尊旺
李哲
蔡茂昌
曹如鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinjiang University
Original Assignee
Xinjiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinjiang University filed Critical Xinjiang University
Priority to CN202110277553.1A priority Critical patent/CN113032559B/zh
Publication of CN113032559A publication Critical patent/CN113032559A/zh
Application granted granted Critical
Publication of CN113032559B publication Critical patent/CN113032559B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种用于低资源黏着性语言文本分类的语言模型微调方法,涉及语言处理技术领域,通过形态学分析和词干提取构建低噪声微调数据集,在该数据集上对跨语言预训练模型进行微调,为下游文本分类任务提供有意义且易于使用的特征提取器,从预先训练的语言模型中更好地选择相关的语义和句法信息,并将这些特征用于下游文本分类任务。

Description

一种用于低资源黏着性语言文本分类的语言模型微调方法
技术领域
本发明涉及语言处理技术领域,特别涉及一种用于低资源黏着性语言文本分类的语言模型微调方法。
背景技术
文本分类是大多数自然语言处理任务的支柱,如情感分析、新闻主题分类和意图识别。尽管深度学习模型在许多自然语言处理(NLP)任务中已经达到了最先进的水平,但这些模型都是从头开始训练的,这使得它们需要更大的数据集。尽管如此,许多低资源语言缺乏支持文本分类中各种任务的丰富标注数据集资源。
低资源黏着性文本分类的主要挑战是目标领域中缺乏标注数据和语言结构中派生词的形态多样性。对于维吾尔语、哈萨克语和柯尔克孜语等低资源黏着性语言来说,单词是从词干词缀衍生而来的,所以形成了一个巨大的词汇量。词干表示文本内容,词缀提供语义和语法功能。该特性允许无限衍生词汇,从而导致高不确定性的写作形式和巨大的词汇冗余。这些语言在书写时转录语音发音从而导致形态结构的多样性,并导致了这些语言上的书写形式的高度不确定性,即单词的个性化拼写,特别是较少使用的单词和术语。而从互联网上收集的数据在编码和拼写方面是有噪声和不确定的。维吾尔语、哈萨克语和柯尔克孜语语言的NLP任务存在的主要问题是拼写和编码的不确定性以及标注数据集的不足,这对短小且有噪声的文本数据进行分类提出了很大的挑战。由于人工标注的文本语料库数量多,在数据不足的情况下,文本分类往往比较困难。词干作为文本内容的表示,该特性允许无限衍生词汇,从而导致高不确定性的写作形式和巨大的词汇冗余。
针对上述问题,本申请提出了一种用于低资源黏着性语言文本分类的语言模型微调方法,通过形态学分析和词干提取构建低噪声微调数据集,在该数据集上对跨语言预训练模型进行微调,为下游文本分类任务提供有意义且易于使用的特征提取器,从预先训练的语言模型中更好地选择相关的语义和句法信息,并将这些特征用于下游文本分类任务。
发明内容
本发明的目的在于提供一种用于低资源黏着性语言文本分类的语言模型微调方法,通过形态学分析和词干提取构建低噪声微调数据集,在该数据集上对跨语言预训练模型进行微调,为下游文本分类任务提供有意义且易于使用的特征提取器,从预先训练的语言模型中更好地选择相关的语义和句法信息,并将这些特征用于下游文本分类任务。
本发明提供了一种用于低资源黏着性语言文本分类的语言模型微调方法,包括以下步骤:
步骤S1:基于低资源黏着性语言文本语料库建立跨语言模型,并对其进行预训练;
步骤S2:在无监督语言建模任务上,对下游分类数据集进行词素分析和词干提取,构建微调数据集,在微调数据集上对预先训练好的跨语言模型进行微调;
步骤S3:基于微调数据集构建分类模型,并使用区分性微调捕捉不同层次的不同类型信息,并对该信息进行判别微调;
步骤S4:基于注意力机制设置编码器-解码器架构进行微调;
步骤S5:对分类器添加两个带有批归一化和dropout的线性块进行文本分类。
进一步地,所述步骤S1利用XLM-R模型进行语言模型建模,XLM-R模型使用相同的共享词汇表,从单语语料库中随机抽取句子进行连接,学习BPE拆分,通过字节对编码BPE处理语言。
进一步地,所述步骤S1随机抽取句子是根据具有概率的多项分布进行的,其多项分布为{qi}i=1,2,3,…n,具体地:
Figure BDA0002977256910000031
其中,
Figure BDA0002977256910000032
并且α=0.3。
进一步地,所述步骤S2对跨语言模型进行微调的步骤为:
S21:使用基于后缀的半监督语素分词器,对于候选词,所述半监督语素分词器采用迭代搜索算法,通过匹配词干集和后缀集产生所有的分词结果;
S22:当语素合并成单词时,边界上的音素按照语音和书写的规则改变其表面形态,语素将相互协调,并诉诸于彼此的发音;
S23:当发音准确地表现出来后,在低资源黏着性文本分类任务中,采用独立的统计模型从n个最佳结果中选出最佳结果;
S24:通过提取词干收集必要的术语,组成噪声较小的微调数据集,然后使用XLM-R模型对微调数据集进行微调,获得更好的性能。
进一步地,所述步骤S3判别微调的具体方法为:
采用分类学习率对捕捉到的信息进行微调,把参数θ分割成{θ1,…,θL},其中θL包含L-th层的参数,参数更新如下:
Figure BDA0002977256910000033
其中ηl表示L-th层的学习率,t表示更新步骤,设基础学习率为ηL,则ηk-1=ξ·ηk,其中ξ是衰减因子,且小于等于1;当ξ<1时,下层的学习速度比上层慢;当ξ=1时,所有层具有相同的学习率,相当于规则随机梯度下降。
进一步地,所述步骤S4中的编码器从数据集的输入中学习上下文化的特征,其时间步长的隐态为H=h1,h2,…hT,作为分类数据的表示,也作为注意层的输入,利用自注意从输入状态中提取相关方面,对齐计算如下:
ut=tanh(Wuht+bu)       (3)
对于t=1,2,…,T,其中Wu和bu是要学习的权矩阵和偏置项,对齐评分由以下Softmax函数给出:
Figure BDA0002977256910000041
最后作为分类器输入的上下文向量为:
Figure BDA0002977256910000042
进一步地,所述步骤S5中线性块中间层的ReLU激活和输出层的Softmax激活,用于计算目标类的概率分布,设置最后一个线性块的输出是S0,则C=c1,c2,…,cM=Xx,Y是目标分类数据,其中c1=(x1,y1),x1是令牌的输入序列,y1是对应的标签,用于训练模型的分类损失通过以下方式计算:
Figure BDA0002977256910000043
其中,
Figure BDA0002977256910000044
与现有技术相比,本发明具有如下显著优点:
本发明提出的一种用于低资源黏着性语言文本分类的语言模型微调方法,通过提取词干和形态学分析构建低噪声微调数据集,对跨语言预训练模型进行微调。从预先训练好的语言模型中更好地选择相关的语义和语法信息,并使用区分性微调来捕获不同类型的不同层次的信息。本申请提出了一个基于注意力的低资源粘性语言模型微调模型,它能够解决维吾尔语,哈萨克语,柯尔克孜语低资源黏着性语言文本分类精度不高的问题。
附图说明
图1为本发明实施例提供的一种用于低资源黏着性语言文本分类的语言模型微调方法的方法流程图;
图2为本发明实施例提供的词干提取过程图。
具体实施方式
下面结合本发明中的附图,对本发明实施例的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
数据增强技术可以有效地解决低资源语言数据集标记语料库不足的问题。Sahinand Steedman提供了两种简单的文本扩展技术,然而,由于低资源黏着语言在这类场景中的不规范行为,这可能不足以完成其他一些任务,例如跨语言文本分类。
预先训练的语言模型,如BERT或XLM已经成为一种有效的NLP方法,并在许多下游任务上产生了最先进的结果。这些模型只需要无标记的数据来进行训练,所以当市场数据很少的时候,它们特别有用。充分探索微调对解决这一问题大有帮助。在微调方面进行了实证研究,虽然这些方法取得了较好的效果,但由于衍生词的形态多样性,它们在低资源黏着语言上的效果并不理想。
对低资源粘性语言进行语言模型微调的一个重要挑战是如何捕捉特征信息。低资源黏着性语言是一种形态丰富的黏着语言,由词根(词干)和词缀构成。这些方法很难捕获低资源黏着性语言的语义信息。词干是名义上的独立粒子与实际意义的词,和词缀提供低资源黏着性语言中的语法功能,语素细分可以使我们能够独立的词干和删除语法后缀停止词,并减少噪音和捕捉丰富的特性在低资源黏着性语言文本分类任务。
参照图1-2,本发明提供了一种用于低资源黏着性语言文本分类的语言模型微调方法,包括以下步骤:
步骤S1:基于低资源黏着性语言文本语料库建立跨语言模型,并对其进行预训练;
步骤S2:在无监督语言建模任务上,对下游分类数据集进行词素分析和词干提取,构建微调数据集,在微调数据集上对预先训练好的跨语言模型进行微调;
步骤S3:基于微调数据集构建分类模型,并使用区分性微调捕捉不同层次的不同类型信息,并对该信息进行判别微调;
步骤S4:基于注意力机制设置编码器-解码器架构进行微调;
步骤S5:对分类器添加两个带有批归一化和dropout的线性块进行文本分类。
验证上述模型,收集并标注了9个用于低资源黏着语文本分类的语料,包括主题分类、情感分析和意图分类。实验结果表明,在少量标记样本的情况下,该模型能显著提高性能。
实施例1
所述步骤S1利用XLM-R模型进行语言模型建模,XLM-R模型使用相同的共享词汇表,从单语语料库中随机抽取句子进行连接,学习BPE拆分,通过字节对编码BPE处理语言,此方法大大改善了跨语言嵌入空格的对齐,这些语言共享相同的字母或锚定标记,如数字或专有名词。
所述步骤S1随机抽取句子是根据具有概率的多项分布进行的,其多项分布为{qi}i=1,2,3,…n,具体地:
Figure BDA0002977256910000061
其中,
Figure BDA0002977256910000062
并且α=0.3。
这种分布式抽样方法增加了与低资源语言相关的标记数量,并缓解了对高资源语言的偏倚。特别地,能够防止低资源语言中的单词在字符级别上被分割。
实施例2
所述步骤S2对跨语言模型进行微调的步骤为:
S21:使用基于后缀的半监督语素分词器,对于候选词,所述半监督语素分词器采用迭代搜索算法,通过匹配词干集和后缀集产生所有的分词结果;
S22:当语素合并成单词时,边界上的音素按照语音和书写的规则改变其表面形态,语素将相互协调,并诉诸于彼此的发音;
S23:当发音准确地表现出来后,就能在文本中清晰地观察到语音的和谐,在低资源黏着性文本分类任务中,采用独立的统计模型从n个最佳结果中选出最佳结果;
S24:通过提取词干收集必要的术语,组成噪声较小的微调数据集,然后使用XLM-R模型对微调数据集进行微调,获得更好的性能。
实施例3
所述步骤S3判别微调的具体方法为:
神经网络的不同层次可以捕获不同层次的句法语义信息。XLM-R模型的下层可能包含更多的一般信息。采用分类学习率对捕捉到的信息进行微调,把参数θ分割成{θ1,…,θL},其中θL包含L-th层的参数,参数更新如下:
Figure BDA0002977256910000071
其中ηl表示L-th层的学习率,t表示更新步骤,设基础学习率为ηL,则ηk-1=ξ·ηk,其中ξ是衰减因子,且小于等于1;当ξ<1时,下层的学习速度比上层慢;当ξ=1时,所有层具有相同的学习率,相当于规则随机梯度下降(SGD)。
实施例4
所述步骤S4中的编码器从数据集的输入中学习上下文化的特征,其时间步长的隐态为H=h1,h2,…hT,作为分类数据的表示,也作为注意层的输入,利用自注意从输入状态中提取相关方面,对齐计算如下:
ut=tanh(Wuht+bu)        (3)
对于t=1,2,…,T,其中Wu和bu是要学习的权矩阵和偏置项,对齐评分由以下Softmax函数给出:
Figure BDA0002977256910000081
最后作为分类器输入的上下文向量为:
Figure BDA0002977256910000082
实施例5
所述步骤S5中线性块中间层的ReLU激活和输出层的Softmax激活,用于计算目标类的概率分布,设置最后一个线性块的输出是S0,则C=c1,c2,…,cM=Xx,Y是目标分类数据,其中c1=(x1,y1),x1是令牌的输入序列,y1是对应的标签,用于训练模型的分类损失通过以下方式计算:
Figure BDA0002977256910000083
其中,
Figure BDA0002977256910000084
以上公开的仅为本发明的几个具体实施例,但是,本发明实施例并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (5)

1.一种用于低资源黏着性语言文本分类的语言模型微调方法,其特征在于,包括以下步骤:
步骤S1:基于低资源黏着性语言文本语料库建立跨语言模型,并对其进行预训练;
所述步骤S1利用XLM-R模型进行语言模型建模,XLM-R模型使用相同的共享词汇表,从单语语料库中随机抽取句子进行连接,学习BPE拆分,通过字节对编码BPE处理语言;
所述步骤S1随机抽取句子是根据具有概率的多项分布进行的,其多项分布为{qi}i=1,2,3,…n,具体地:
Figure FDA0003906588270000011
其中,
Figure FDA0003906588270000012
并且α=0.3;
步骤S2:在无监督语言建模任务上,对下游分类数据集进行词素分析和词干提取,构建微调数据集,在微调数据集上对预先训练好的跨语言模型进行微调;
步骤S3:基于微调数据集构建分类模型,并使用区分性微调捕捉不同层次的不同类型信息,并对该信息进行判别微调;
步骤S4:基于注意力机制设置编码器-解码器架构进行微调;
步骤S5:对分类器添加两个带有批归一化和dropout的线性块进行文本分类。
2.如权利要求1所述的一种用于低资源黏着性语言文本分类的语言模型微调方法,其特征在于,所述步骤S2对跨语言模型进行微调的步骤为:
S21:使用基于后缀的半监督语素分词器,对于候选词,所述半监督语素分词器采用迭代搜索算法,通过匹配词干集和后缀集产生所有的分词结果;
S22:当语素合并成单词时,边界上的音素按照语音和书写的规则改变其表面形态,语素将相互协调,并诉诸于彼此的发音;
S23:当发音准确地表现出来后,在低资源黏着性文本分类任务中,采用独立的统计模型从n个最佳结果中选出最佳结果;
S24:通过提取词干收集必要的术语,组成噪声较小的微调数据集,然后使用XLM-R模型对微调数据集进行微调,获得更好的性能。
3.如权利要求1所述的一种用于低资源黏着性语言文本分类的语言模型微调方法,其特征在于,所述步骤S3判别微调的具体方法为:
采用分类学习率对捕捉到的信息进行微调,把参数θ分割成{θ1,…,θL},其中θL包含L-th层的参数,参数更新如下:
Figure FDA0003906588270000021
其中ηl表示L-th层的学习率,t表示更新步骤,设基础学习率为ηL,则ηk-1=ξ·ηk,其中ξ是衰减因子,且小于等于1;当ξ<1时,下层的学习速度比上层慢;当ξ=1时,所有层具有相同的学习率,相当于规则随机梯度下降。
4.如权利要求1所述的一种用于低资源黏着性语言文本分类的语言模型微调方法,其特征在于,所述步骤S4中的编码器从数据集的输入中学习上下文化的特征,其时间步长的隐态为H=h1,h2,…hT,作为分类数据的表示,也作为注意层的输入,利用自注意从输入状态中提取相关方面,对齐计算如下:
ut=tanh(Wuht+bu)          (3)
对于t=1,2,…,T,其中Wu和bu是要学习的权矩阵和偏置项,对齐评分由以下Softmax函数给出:
Figure FDA0003906588270000022
最后作为分类器输入的上下文向量为:
Figure FDA0003906588270000023
5.如权利要求1所述的一种用于低资源黏着性语言文本分类的语言模型微调方法,其特征在于,所述步骤S5中线性块中间层的ReLU激活和输出层的Softmax激活,用于计算目标类的概率分布,设置最后一个线性块的输出是So,则C=c1,c2,…,cM=Xx,Y是目标分类数据,其中c1=(x1,y1),x1是令牌的输入序列,y1是对应的标签,用于训练模型的分类损失通过以下方式计算:
Figure FDA0003906588270000031
其中,
Figure FDA0003906588270000032
CN202110277553.1A 2021-03-15 2021-03-15 一种用于低资源黏着性语言文本分类的语言模型微调方法 Active CN113032559B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110277553.1A CN113032559B (zh) 2021-03-15 2021-03-15 一种用于低资源黏着性语言文本分类的语言模型微调方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110277553.1A CN113032559B (zh) 2021-03-15 2021-03-15 一种用于低资源黏着性语言文本分类的语言模型微调方法

Publications (2)

Publication Number Publication Date
CN113032559A CN113032559A (zh) 2021-06-25
CN113032559B true CN113032559B (zh) 2023-04-28

Family

ID=76470658

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110277553.1A Active CN113032559B (zh) 2021-03-15 2021-03-15 一种用于低资源黏着性语言文本分类的语言模型微调方法

Country Status (1)

Country Link
CN (1) CN113032559B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254604B (zh) * 2021-07-15 2021-10-01 山东大学 一种基于参考规范的专业文本生成方法及装置
WO2023229483A1 (ru) * 2022-05-27 2023-11-30 Публичное Акционерное Общество "Сбербанк России" Способ и система классификации текста

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010267200A (ja) * 2009-05-18 2010-11-25 Nippon Telegr & Teleph Corp <Ntt> 合成翻訳モデル作成装置、テキストクラスタリング装置、それらの方法およびプログラム
WO2015079591A1 (en) * 2013-11-27 2015-06-04 Nec Corporation Crosslingual text classification method using expected frequencies
CN106233375A (zh) * 2014-04-25 2016-12-14 纽昂斯通信有限公司 基于众包的用户文本输入从头开始学习语言模型
CN108960317A (zh) * 2018-06-27 2018-12-07 哈尔滨工业大学 基于跨语言词向量表示和分类器联合训练的跨语言文本分类方法
CN109325112A (zh) * 2018-06-27 2019-02-12 北京大学 一种基于emoji的跨语言情感分析方法和装置
CN110334187A (zh) * 2019-07-09 2019-10-15 昆明理工大学 基于迁移学习的缅语情感分析方法及装置
CN111160037A (zh) * 2019-12-02 2020-05-15 广州大学 一种支持跨语言迁移的细粒度情感分析方法
CN111444721A (zh) * 2020-05-27 2020-07-24 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法
CN111783462A (zh) * 2020-06-30 2020-10-16 大连民族大学 基于双神经网络融合的中文命名实体识别模型及方法
CN112100383A (zh) * 2020-11-02 2020-12-18 之江实验室 一种面向多任务语言模型的元-知识微调方法及平台
CN112214599A (zh) * 2020-10-20 2021-01-12 电子科技大学 基于统计学和预训练语言模型的多标签文本分类方法
CN112287688A (zh) * 2020-09-17 2021-01-29 昆明理工大学 融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置
CN112347795A (zh) * 2020-10-04 2021-02-09 北京交通大学 机器翻译质量评估方法、装置、设备及介质
CN112364945A (zh) * 2021-01-12 2021-02-12 之江实验室 一种基于域-不变特征的元-知识微调方法及平台

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9588958B2 (en) * 2006-10-10 2017-03-07 Abbyy Infopoisk Llc Cross-language text classification
US9495358B2 (en) * 2006-10-10 2016-11-15 Abbyy Infopoisk Llc Cross-language text clustering
US10380241B2 (en) * 2010-05-26 2019-08-13 Warren Daniel Child Modular system and method for managing chinese, japanese, and korean linguistic data in electronic form
WO2016134183A1 (en) * 2015-02-19 2016-08-25 Digital Reasoning Systems, Inc. Systems and methods for neural language modeling
CN109472031B (zh) * 2018-11-09 2021-05-04 电子科技大学 一种基于双记忆注意力的方面级别情感分类模型及方法
US20210035556A1 (en) * 2019-08-02 2021-02-04 Babylon Partners Limited Fine-tuning language models for supervised learning tasks via dataset preprocessing
CN110489555B (zh) * 2019-08-21 2022-03-08 创新工场(广州)人工智能研究有限公司 一种结合类词信息的语言模型预训练方法
CN111428026A (zh) * 2020-02-20 2020-07-17 西安电子科技大学 一种多标签文本分类处理方法及系统、信息数据处理终端
CN112417877B (zh) * 2020-11-24 2022-09-27 广州平云信息科技有限公司 一种基于改进bert的文本蕴含关系识别方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010267200A (ja) * 2009-05-18 2010-11-25 Nippon Telegr & Teleph Corp <Ntt> 合成翻訳モデル作成装置、テキストクラスタリング装置、それらの方法およびプログラム
WO2015079591A1 (en) * 2013-11-27 2015-06-04 Nec Corporation Crosslingual text classification method using expected frequencies
CN106233375A (zh) * 2014-04-25 2016-12-14 纽昂斯通信有限公司 基于众包的用户文本输入从头开始学习语言模型
CN108960317A (zh) * 2018-06-27 2018-12-07 哈尔滨工业大学 基于跨语言词向量表示和分类器联合训练的跨语言文本分类方法
CN109325112A (zh) * 2018-06-27 2019-02-12 北京大学 一种基于emoji的跨语言情感分析方法和装置
CN110334187A (zh) * 2019-07-09 2019-10-15 昆明理工大学 基于迁移学习的缅语情感分析方法及装置
CN111160037A (zh) * 2019-12-02 2020-05-15 广州大学 一种支持跨语言迁移的细粒度情感分析方法
CN111444721A (zh) * 2020-05-27 2020-07-24 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法
CN111783462A (zh) * 2020-06-30 2020-10-16 大连民族大学 基于双神经网络融合的中文命名实体识别模型及方法
CN112287688A (zh) * 2020-09-17 2021-01-29 昆明理工大学 融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置
CN112347795A (zh) * 2020-10-04 2021-02-09 北京交通大学 机器翻译质量评估方法、装置、设备及介质
CN112214599A (zh) * 2020-10-20 2021-01-12 电子科技大学 基于统计学和预训练语言模型的多标签文本分类方法
CN112100383A (zh) * 2020-11-02 2020-12-18 之江实验室 一种面向多任务语言模型的元-知识微调方法及平台
CN112364945A (zh) * 2021-01-12 2021-02-12 之江实验室 一种基于域-不变特征的元-知识微调方法及平台

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
傅群超 ; 王枞 ; .用于文本分类的多探测任务语言模型微调.北京邮电大学学报.2019,(第06期),第80-87页. *
彭晓娅 ; 周栋 ; .跨语言词向量研究综述.中文信息学报.2020,(第02期),第4-18页. *
盛雅琦 ; 张晗 ; 吕晨 ; 姬东鸿 ; .基于混合主题模型的文本蕴涵识别.计算机工程.2015,(第05期),第186-190页. *

Also Published As

Publication number Publication date
CN113032559A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN107291693B (zh) 一种改进词向量模型的语义计算方法
US11210470B2 (en) Automatic text segmentation based on relevant context
Winata et al. Attention-based lstm for psychological stress detection from spoken language using distant supervision
CN108124477B (zh) 基于伪数据改进分词器以处理自然语言
CN110929030A (zh) 一种文本摘要和情感分类联合训练方法
CN101777347B (zh) 一种模型互补的汉语重音识别方法及系统
CN110688862A (zh) 一种基于迁移学习的蒙汉互译方法
CN113032559B (zh) 一种用于低资源黏着性语言文本分类的语言模型微调方法
JP7266683B2 (ja) 音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラム
Elsner et al. Bootstrapping a unified model of lexical and phonetic acquisition
CN102063900A (zh) 克服混淆发音的语音识别方法及系统
CN112599128A (zh) 一种语音识别方法、装置、设备和存储介质
Lee et al. Personalizing recurrent-neural-network-based language model by social network
CN112185361B (zh) 一种语音识别模型训练方法、装置、电子设备及存储介质
CN112905736A (zh) 一种基于量子理论的无监督文本情感分析方法
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
CN111159405B (zh) 基于背景知识的讽刺检测方法
Ondel et al. Bayesian phonotactic language model for acoustic unit discovery
CN112489634A (zh) 语言的声学模型训练方法、装置、电子设备及计算机介质
Wang et al. End-to-End low-resource speech recognition with a deep CNN-LSTM encoder
Azim et al. Large vocabulary Arabic continuous speech recognition using tied states acoustic models
CN115223549A (zh) 一种越南语语音识别语料构建方法
Jyothi et al. Improved hindi broadcast ASR by adapting the language model and pronunciation model using a priori syntactic and morphophonemic knowledge.
CN112085985B (zh) 一种面向英语考试翻译题目的学生答案自动评分方法
Naulla et al. Predicting the Next Word of a Sinhala Word Series Using Recurrent Neural Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant