CN113032559A - 一种用于低资源黏着性语言文本分类的语言模型微调方法 - Google Patents
一种用于低资源黏着性语言文本分类的语言模型微调方法 Download PDFInfo
- Publication number
- CN113032559A CN113032559A CN202110277553.1A CN202110277553A CN113032559A CN 113032559 A CN113032559 A CN 113032559A CN 202110277553 A CN202110277553 A CN 202110277553A CN 113032559 A CN113032559 A CN 113032559A
- Authority
- CN
- China
- Prior art keywords
- language
- fine
- model
- classification
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000004458 analytical method Methods 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 230000004913 activation Effects 0.000 claims description 6
- 239000000853 adhesive Substances 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 5
- 230000001070 adhesive effect Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000013145 classification model Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000010845 search algorithm Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000013179 statistical model Methods 0.000 claims description 3
- 230000000877 morphologic effect Effects 0.000 abstract description 6
- 238000003058 natural language processing Methods 0.000 description 5
- 238000009795 derivation Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种用于低资源黏着性语言文本分类的语言模型微调方法,涉及语言处理技术领域,通过形态学分析和词干提取构建低噪声微调数据集,在该数据集上对跨语言预训练模型进行微调,为下游文本分类任务提供有意义且易于使用的特征提取器,从预先训练的语言模型中更好地选择相关的语义和句法信息,并将这些特征用于下游文本分类任务。
Description
技术领域
本发明涉及语言处理技术领域,特别涉及一种用于低资源黏着性语言文本分类的语言模型微调方法。
背景技术
文本分类是大多数自然语言处理任务的支柱,如情感分析、新闻主题分类和意图识别。尽管深度学习模型在许多自然语言处理(NLP)任务中已经达到了最先进的水平,但这些模型都是从头开始训练的,这使得它们需要更大的数据集。尽管如此,许多低资源语言缺乏支持文本分类中各种任务的丰富标注数据集资源。
低资源黏着性文本分类的主要挑战是目标领域中缺乏标注数据和语言结构中派生词的形态多样性。对于维吾尔语、哈萨克语和柯尔克孜语等低资源黏着性语言来说,单词是从词干词缀衍生而来的,所以形成了一个巨大的词汇量。词干表示文本内容,词缀提供语义和语法功能。该特性允许无限衍生词汇,从而导致高不确定性的写作形式和巨大的词汇冗余。这些语言在书写时转录语音发音从而导致形态结构的多样性,并导致了这些语言上的书写形式的高度不确定性,即单词的个性化拼写,特别是较少使用的单词和术语。而从互联网上收集的数据在编码和拼写方面是有噪声和不确定的。维吾尔语、哈萨克语和柯尔克孜语语言的NLP任务存在的主要问题是拼写和编码的不确定性以及标注数据集的不足,这对短小且有噪声的文本数据进行分类提出了很大的挑战。由于人工标注的文本语料库数量多,在数据不足的情况下,文本分类往往比较困难。词干作为文本内容的表示,该特性允许无限衍生词汇,从而导致高不确定性的写作形式和巨大的词汇冗余。
针对上述问题,本申请提出了一种用于低资源黏着性语言文本分类的语言模型微调方法,通过形态学分析和词干提取构建低噪声微调数据集,在该数据集上对跨语言预训练模型进行微调,为下游文本分类任务提供有意义且易于使用的特征提取器,从预先训练的语言模型中更好地选择相关的语义和句法信息,并将这些特征用于下游文本分类任务。
发明内容
本发明的目的在于提供一种用于低资源黏着性语言文本分类的语言模型微调方法,通过形态学分析和词干提取构建低噪声微调数据集,在该数据集上对跨语言预训练模型进行微调,为下游文本分类任务提供有意义且易于使用的特征提取器,从预先训练的语言模型中更好地选择相关的语义和句法信息,并将这些特征用于下游文本分类任务。
本发明提供了一种用于低资源黏着性语言文本分类的语言模型微调方法,包括以下步骤:
步骤S1:基于低资源黏着性语言文本语料库建立跨语言模型,并对其进行预训练;
步骤S2:在无监督语言建模任务上,对下游分类数据集进行词素分析和词干提取,构建微调数据集,在微调数据集上对预先训练好的跨语言模型进行微调;
步骤S3:基于微调数据集构建分类模型,并使用区分性微调捕捉不同层次的不同类型信息,并对该信息进行判别微调;
步骤S4:基于注意力机制设置编码器-解码器架构进行微调;
步骤S5:对分类器添加两个带有批归一化和dropout的线性块进行文本分类。
进一步地,所述步骤S1利用XLM-R模型进行语言模型建模,XLM-R模型使用相同的共享词汇表,从单语语料库中随机抽取句子进行连接,学习BPE拆分,通过字节对编码BPE处理语言。
进一步地,所述步骤S1随机抽取句子是根据具有概率的多项分布进行的,其多项分布为{qi}i=1,2,3,…n,具体地:
进一步地,所述步骤S2对跨语言模型进行微调的步骤为:
S21:使用基于后缀的半监督语素分词器,对于候选词,所述半监督语素分词器采用迭代搜索算法,通过匹配词干集和后缀集产生所有的分词结果;
S22:当语素合并成单词时,边界上的音素按照语音和书写的规则改变其表面形态,语素将相互协调,并诉诸于彼此的发音;
S23:当发音准确地表现出来后,在低资源黏着性文本分类任务中,采用独立的统计模型从n个最佳结果中选出最佳结果;
S24:通过提取词干收集必要的术语,组成噪声较小的微调数据集,然后使用XLM-R模型对微调数据集进行微调,获得更好的性能。
进一步地,所述步骤S3判别微调的具体方法为:
采用分类学习率对捕捉到的信息进行微调,把参数θ分割成{θ1,…,θL},其中θL包含L-th层的参数,参数更新如下:
其中ηl表示L-th层的学习率,t表示更新步骤,设基础学习率为ηL,则ηk-1=ξ·ηk,其中ξ是衰减因子,且小于等于1;当ξ<1时,下层的学习速度比上层慢;当ξ=1时,所有层具有相同的学习率,相当于规则随机梯度下降。
进一步地,所述步骤S4中的编码器从数据集的输入中学习上下文化的特征,其时间步长的隐态为H=h1,h2,…hT,作为分类数据的表示,也作为注意层的输入,利用自注意从输入状态中提取相关方面,对齐计算如下:
ut=tanh(Wuht+bu) (3)
对于t=1,2,…,T,其中Wu和bu是要学习的权矩阵和偏置项,对齐评分由以下Softmax函数给出:
最后作为分类器输入的上下文向量为:
进一步地,所述步骤S5中线性块中间层的ReLU激活和输出层的Softmax激活,用于计算目标类的概率分布,设置最后一个线性块的输出是S0,则C=c1,c2,…,cM=Xx,Y是目标分类数据,其中c1=(x1,y1),x1是令牌的输入序列,y1是对应的标签,用于训练模型的分类损失通过以下方式计算:
与现有技术相比,本发明具有如下显著优点:
本发明提出的一种用于低资源黏着性语言文本分类的语言模型微调方法,通过提取词干和形态学分析构建低噪声微调数据集,对跨语言预训练模型进行微调。从预先训练好的语言模型中更好地选择相关的语义和语法信息,并使用区分性微调来捕获不同类型的不同层次的信息。本申请提出了一个基于注意力的低资源粘性语言模型微调模型,它能够解决维吾尔语,哈萨克语,柯尔克孜语低资源黏着性语言文本分类精度不高的问题。
附图说明
图1为本发明实施例提供的一种用于低资源黏着性语言文本分类的语言模型微调方法的方法流程图;
图2为本发明实施例提供的词干提取过程图。
具体实施方式
下面结合本发明中的附图,对本发明实施例的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
数据增强技术可以有效地解决低资源语言数据集标记语料库不足的问题。Sahinand Steedman提供了两种简单的文本扩展技术,然而,由于低资源黏着语言在这类场景中的不规范行为,这可能不足以完成其他一些任务,例如跨语言文本分类。
预先训练的语言模型,如BERT或XLM已经成为一种有效的NLP方法,并在许多下游任务上产生了最先进的结果。这些模型只需要无标记的数据来进行训练,所以当市场数据很少的时候,它们特别有用。充分探索微调对解决这一问题大有帮助。在微调方面进行了实证研究,虽然这些方法取得了较好的效果,但由于衍生词的形态多样性,它们在低资源黏着语言上的效果并不理想。
对低资源粘性语言进行语言模型微调的一个重要挑战是如何捕捉特征信息。低资源黏着性语言是一种形态丰富的黏着语言,由词根(词干)和词缀构成。这些方法很难捕获低资源黏着性语言的语义信息。词干是名义上的独立粒子与实际意义的词,和词缀提供低资源黏着性语言中的语法功能,语素细分可以使我们能够独立的词干和删除语法后缀停止词,并减少噪音和捕捉丰富的特性在低资源黏着性语言文本分类任务。
参照图1-2,本发明提供了一种用于低资源黏着性语言文本分类的语言模型微调方法,包括以下步骤:
步骤S1:基于低资源黏着性语言文本语料库建立跨语言模型,并对其进行预训练;
步骤S2:在无监督语言建模任务上,对下游分类数据集进行词素分析和词干提取,构建微调数据集,在微调数据集上对预先训练好的跨语言模型进行微调;
步骤S3:基于微调数据集构建分类模型,并使用区分性微调捕捉不同层次的不同类型信息,并对该信息进行判别微调;
步骤S4:基于注意力机制设置编码器-解码器架构进行微调;
步骤S5:对分类器添加两个带有批归一化和dropout的线性块进行文本分类。
验证上述模型,收集并标注了9个用于低资源黏着语文本分类的语料,包括主题分类、情感分析和意图分类。实验结果表明,在少量标记样本的情况下,该模型能显著提高性能。
实施例1
所述步骤S1利用XLM-R模型进行语言模型建模,XLM-R模型使用相同的共享词汇表,从单语语料库中随机抽取句子进行连接,学习BPE拆分,通过字节对编码BPE处理语言,此方法大大改善了跨语言嵌入空格的对齐,这些语言共享相同的字母或锚定标记,如数字或专有名词。
所述步骤S1随机抽取句子是根据具有概率的多项分布进行的,其多项分布为{qi}i=1,2,3,…n,具体地:
这种分布式抽样方法增加了与低资源语言相关的标记数量,并缓解了对高资源语言的偏倚。特别地,能够防止低资源语言中的单词在字符级别上被分割。
实施例2
所述步骤S2对跨语言模型进行微调的步骤为:
S21:使用基于后缀的半监督语素分词器,对于候选词,所述半监督语素分词器采用迭代搜索算法,通过匹配词干集和后缀集产生所有的分词结果;
S22:当语素合并成单词时,边界上的音素按照语音和书写的规则改变其表面形态,语素将相互协调,并诉诸于彼此的发音;
S23:当发音准确地表现出来后,就能在文本中清晰地观察到语音的和谐,在低资源黏着性文本分类任务中,采用独立的统计模型从n个最佳结果中选出最佳结果;
S24:通过提取词干收集必要的术语,组成噪声较小的微调数据集,然后使用XLM-R模型对微调数据集进行微调,获得更好的性能。
实施例3
所述步骤S3判别微调的具体方法为:
神经网络的不同层次可以捕获不同层次的句法语义信息。XLM-R模型的下层可能包含更多的一般信息。采用分类学习率对捕捉到的信息进行微调,把参数θ分割成{θ1,…,θL},其中θL包含L-th层的参数,参数更新如下:
其中ηl表示L-th层的学习率,t表示更新步骤,设基础学习率为ηL,则ηk-1=ξ·ηk,其中ξ是衰减因子,且小于等于1;当ξ<1时,下层的学习速度比上层慢;当ξ=1时,所有层具有相同的学习率,相当于规则随机梯度下降(SGD)。
实施例4
所述步骤S4中的编码器从数据集的输入中学习上下文化的特征,其时间步长的隐态为H=h1,h2,…hT,作为分类数据的表示,也作为注意层的输入,利用自注意从输入状态中提取相关方面,对齐计算如下:
ut=tanh(Wuht+bu) (3)
对于t=1,2,…,T,其中Wu和bu是要学习的权矩阵和偏置项,对齐评分由以下Softmax函数给出:
最后作为分类器输入的上下文向量为:
实施例5
所述步骤S5中线性块中间层的ReLU激活和输出层的Softmax激活,用于计算目标类的概率分布,设置最后一个线性块的输出是S0,则C=c1,c2,…,cM=Xx,Y是目标分类数据,其中c1=(x1,y1),x1是令牌的输入序列,y1是对应的标签,用于训练模型的分类损失通过以下方式计算:
以上公开的仅为本发明的几个具体实施例,但是,本发明实施例并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。
Claims (7)
1.一种用于低资源黏着性语言文本分类的语言模型微调方法,其特征在于,包括以下步骤:
步骤S1:基于低资源黏着性语言文本语料库建立跨语言模型,并对其进行预训练;
步骤S2:在无监督语言建模任务上,对下游分类数据集进行词素分析和词干提取,构建微调数据集,在微调数据集上对预先训练好的跨语言模型进行微调;
步骤S3:基于微调数据集构建分类模型,并使用区分性微调捕捉不同层次的不同类型信息,并对该信息进行判别微调;
步骤S4:基于注意力机制设置编码器-解码器架构进行微调;
步骤S5:对分类器添加两个带有批归一化和dropout的线性块进行文本分类。
2.如权利要求1所述的一种用于低资源黏着性语言文本分类的语言模型微调方法,其特征在于,所述步骤S1利用XLM-R模型进行语言模型建模,XLM-R模型使用相同的共享词汇表,从单语语料库中随机抽取句子进行连接,学习BPE拆分,通过字节对编码BPE处理语言。
4.如权利要求1所述的一种用于低资源黏着性语言文本分类的语言模型微调方法,其特征在于,所述步骤S2对跨语言模型进行微调的步骤为:
S21:使用基于后缀的半监督语素分词器,对于候选词,所述半监督语素分词器采用迭代搜索算法,通过匹配词干集和后缀集产生所有的分词结果;
S22:当语素合并成单词时,边界上的音素按照语音和书写的规则改变其表面形态,语素将相互协调,并诉诸于彼此的发音;
S23:当发音准确地表现出来后,在低资源黏着性文本分类任务中,采用独立的统计模型从n个最佳结果中选出最佳结果;
S24:通过提取词干收集必要的术语,组成噪声较小的微调数据集,然后使用XLM-R模型对微调数据集进行微调,获得更好的性能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110277553.1A CN113032559B (zh) | 2021-03-15 | 2021-03-15 | 一种用于低资源黏着性语言文本分类的语言模型微调方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110277553.1A CN113032559B (zh) | 2021-03-15 | 2021-03-15 | 一种用于低资源黏着性语言文本分类的语言模型微调方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113032559A true CN113032559A (zh) | 2021-06-25 |
CN113032559B CN113032559B (zh) | 2023-04-28 |
Family
ID=76470658
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110277553.1A Active CN113032559B (zh) | 2021-03-15 | 2021-03-15 | 一种用于低资源黏着性语言文本分类的语言模型微调方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113032559B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254604A (zh) * | 2021-07-15 | 2021-08-13 | 山东大学 | 一种基于参考规范的专业文本生成方法及装置 |
WO2023229483A1 (ru) * | 2022-05-27 | 2023-11-30 | Публичное Акционерное Общество "Сбербанк России" | Способ и система классификации текста |
Citations (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010267200A (ja) * | 2009-05-18 | 2010-11-25 | Nippon Telegr & Teleph Corp <Ntt> | 合成翻訳モデル作成装置、テキストクラスタリング装置、それらの方法およびプログラム |
US20120271627A1 (en) * | 2006-10-10 | 2012-10-25 | Abbyy Software Ltd. | Cross-language text classification |
US20130041652A1 (en) * | 2006-10-10 | 2013-02-14 | Abbyy Infopoisk Llc | Cross-language text clustering |
US20140149103A1 (en) * | 2010-05-26 | 2014-05-29 | Warren Daniel Child | Modular system and method for managing chinese, japanese, and korean linguistic data in electronic form |
WO2015079591A1 (en) * | 2013-11-27 | 2015-06-04 | Nec Corporation | Crosslingual text classification method using expected frequencies |
US20160247061A1 (en) * | 2015-02-19 | 2016-08-25 | Digital Reasoning Systems, Inc. | Systems and Methods for Neural Language Modeling |
CN106233375A (zh) * | 2014-04-25 | 2016-12-14 | 纽昂斯通信有限公司 | 基于众包的用户文本输入从头开始学习语言模型 |
CN108960317A (zh) * | 2018-06-27 | 2018-12-07 | 哈尔滨工业大学 | 基于跨语言词向量表示和分类器联合训练的跨语言文本分类方法 |
CN109325112A (zh) * | 2018-06-27 | 2019-02-12 | 北京大学 | 一种基于emoji的跨语言情感分析方法和装置 |
CN109472031A (zh) * | 2018-11-09 | 2019-03-15 | 电子科技大学 | 一种基于双记忆注意力的方面级别情感分类模型及方法 |
CN110334187A (zh) * | 2019-07-09 | 2019-10-15 | 昆明理工大学 | 基于迁移学习的缅语情感分析方法及装置 |
CN110489555A (zh) * | 2019-08-21 | 2019-11-22 | 创新工场(广州)人工智能研究有限公司 | 一种结合类词信息的语言模型预训练方法 |
CN111160037A (zh) * | 2019-12-02 | 2020-05-15 | 广州大学 | 一种支持跨语言迁移的细粒度情感分析方法 |
CN111428026A (zh) * | 2020-02-20 | 2020-07-17 | 西安电子科技大学 | 一种多标签文本分类处理方法及系统、信息数据处理终端 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
CN111783462A (zh) * | 2020-06-30 | 2020-10-16 | 大连民族大学 | 基于双神经网络融合的中文命名实体识别模型及方法 |
CN112100383A (zh) * | 2020-11-02 | 2020-12-18 | 之江实验室 | 一种面向多任务语言模型的元-知识微调方法及平台 |
CN112214599A (zh) * | 2020-10-20 | 2021-01-12 | 电子科技大学 | 基于统计学和预训练语言模型的多标签文本分类方法 |
CN112287688A (zh) * | 2020-09-17 | 2021-01-29 | 昆明理工大学 | 融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置 |
US20210035556A1 (en) * | 2019-08-02 | 2021-02-04 | Babylon Partners Limited | Fine-tuning language models for supervised learning tasks via dataset preprocessing |
CN112347795A (zh) * | 2020-10-04 | 2021-02-09 | 北京交通大学 | 机器翻译质量评估方法、装置、设备及介质 |
CN112364945A (zh) * | 2021-01-12 | 2021-02-12 | 之江实验室 | 一种基于域-不变特征的元-知识微调方法及平台 |
CN112417877A (zh) * | 2020-11-24 | 2021-02-26 | 广州平云信息科技有限公司 | 一种基于改进bert的文本蕴含关系识别方法 |
-
2021
- 2021-03-15 CN CN202110277553.1A patent/CN113032559B/zh active Active
Patent Citations (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120271627A1 (en) * | 2006-10-10 | 2012-10-25 | Abbyy Software Ltd. | Cross-language text classification |
US20130041652A1 (en) * | 2006-10-10 | 2013-02-14 | Abbyy Infopoisk Llc | Cross-language text clustering |
JP2010267200A (ja) * | 2009-05-18 | 2010-11-25 | Nippon Telegr & Teleph Corp <Ntt> | 合成翻訳モデル作成装置、テキストクラスタリング装置、それらの方法およびプログラム |
US20140149103A1 (en) * | 2010-05-26 | 2014-05-29 | Warren Daniel Child | Modular system and method for managing chinese, japanese, and korean linguistic data in electronic form |
WO2015079591A1 (en) * | 2013-11-27 | 2015-06-04 | Nec Corporation | Crosslingual text classification method using expected frequencies |
CN106233375A (zh) * | 2014-04-25 | 2016-12-14 | 纽昂斯通信有限公司 | 基于众包的用户文本输入从头开始学习语言模型 |
US20160247061A1 (en) * | 2015-02-19 | 2016-08-25 | Digital Reasoning Systems, Inc. | Systems and Methods for Neural Language Modeling |
CN108960317A (zh) * | 2018-06-27 | 2018-12-07 | 哈尔滨工业大学 | 基于跨语言词向量表示和分类器联合训练的跨语言文本分类方法 |
CN109325112A (zh) * | 2018-06-27 | 2019-02-12 | 北京大学 | 一种基于emoji的跨语言情感分析方法和装置 |
CN109472031A (zh) * | 2018-11-09 | 2019-03-15 | 电子科技大学 | 一种基于双记忆注意力的方面级别情感分类模型及方法 |
CN110334187A (zh) * | 2019-07-09 | 2019-10-15 | 昆明理工大学 | 基于迁移学习的缅语情感分析方法及装置 |
US20210035556A1 (en) * | 2019-08-02 | 2021-02-04 | Babylon Partners Limited | Fine-tuning language models for supervised learning tasks via dataset preprocessing |
CN110489555A (zh) * | 2019-08-21 | 2019-11-22 | 创新工场(广州)人工智能研究有限公司 | 一种结合类词信息的语言模型预训练方法 |
CN111160037A (zh) * | 2019-12-02 | 2020-05-15 | 广州大学 | 一种支持跨语言迁移的细粒度情感分析方法 |
CN111428026A (zh) * | 2020-02-20 | 2020-07-17 | 西安电子科技大学 | 一种多标签文本分类处理方法及系统、信息数据处理终端 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
CN111783462A (zh) * | 2020-06-30 | 2020-10-16 | 大连民族大学 | 基于双神经网络融合的中文命名实体识别模型及方法 |
CN112287688A (zh) * | 2020-09-17 | 2021-01-29 | 昆明理工大学 | 融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置 |
CN112347795A (zh) * | 2020-10-04 | 2021-02-09 | 北京交通大学 | 机器翻译质量评估方法、装置、设备及介质 |
CN112214599A (zh) * | 2020-10-20 | 2021-01-12 | 电子科技大学 | 基于统计学和预训练语言模型的多标签文本分类方法 |
CN112100383A (zh) * | 2020-11-02 | 2020-12-18 | 之江实验室 | 一种面向多任务语言模型的元-知识微调方法及平台 |
CN112417877A (zh) * | 2020-11-24 | 2021-02-26 | 广州平云信息科技有限公司 | 一种基于改进bert的文本蕴含关系识别方法 |
CN112364945A (zh) * | 2021-01-12 | 2021-02-12 | 之江实验室 | 一种基于域-不变特征的元-知识微调方法及平台 |
Non-Patent Citations (4)
Title |
---|
傅群超;王枞;: "用于文本分类的多探测任务语言模型微调" * |
彭晓娅;周栋;: "跨语言词向量研究综述" * |
盛雅琦;张晗;吕晨;姬东鸿;: "基于混合主题模型的文本蕴涵识别" * |
穆凯代姆罕•伊敏江 等: "维-哈-柯多语言词素切分集成环境研究", 《电视技术》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254604A (zh) * | 2021-07-15 | 2021-08-13 | 山东大学 | 一种基于参考规范的专业文本生成方法及装置 |
CN113254604B (zh) * | 2021-07-15 | 2021-10-01 | 山东大学 | 一种基于参考规范的专业文本生成方法及装置 |
WO2023229483A1 (ru) * | 2022-05-27 | 2023-11-30 | Публичное Акционерное Общество "Сбербанк России" | Способ и система классификации текста |
Also Published As
Publication number | Publication date |
---|---|
CN113032559B (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107291693B (zh) | 一种改进词向量模型的语义计算方法 | |
Winata et al. | Attention-based lstm for psychological stress detection from spoken language using distant supervision | |
CN101777347B (zh) | 一种模型互补的汉语重音识别方法及系统 | |
CN113032559B (zh) | 一种用于低资源黏着性语言文本分类的语言模型微调方法 | |
Shivakumar et al. | Learning from past mistakes: improving automatic speech recognition output via noisy-clean phrase context modeling | |
Lee et al. | Personalizing recurrent-neural-network-based language model by social network | |
CN112016320A (zh) | 基于数据增强的英文标点符号添加方法和系统及设备 | |
CN112992125A (zh) | 一种语音识别方法、装置、电子设备、可读存储介质 | |
CN109145946B (zh) | 一种智能图像识别和描述方法 | |
CN112489634A (zh) | 语言的声学模型训练方法、装置、电子设备及计算机介质 | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 | |
Cao et al. | Speaker-independent speech emotion recognition based on random forest feature selection algorithm | |
Cardenas et al. | Siminchik: A speech corpus for preservation of southern quechua | |
Hanani et al. | Identifying dialects with textual and acoustic cues | |
Mounika et al. | Automatic correction of speech recognized mathematical equations using encoder-decoder attention model | |
Nasr et al. | End-to-end speech recognition for arabic dialects | |
Ondel et al. | Bayesian phonotactic language model for acoustic unit discovery | |
Hai et al. | Cross-lingual phone mapping for large vocabulary speech recognition of under-resourced languages | |
Bulut et al. | UTD-CRSS submission for MGB-3 Arabic dialect identification: Front-end and back-end advancements on broadcast speech | |
Wang et al. | End-to-End low-resource speech recognition with a deep CNN-LSTM encoder | |
Kazakova et al. | Analysis of natural language processing technology: Modern problems and approaches | |
CN115223549A (zh) | 一种越南语语音识别语料构建方法 | |
Li et al. | Multilingual toxic text classification model based on deep learning | |
CN115376547A (zh) | 发音评测方法、装置、计算机设备和存储介质 | |
Amoolya et al. | Automatic speech recognition for Tulu Language using GMM-HMM and DNN-HMM techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |