CN113627150A - 基于语言相似性的迁移学习平行句对抽取方法及装置 - Google Patents

基于语言相似性的迁移学习平行句对抽取方法及装置 Download PDF

Info

Publication number
CN113627150A
CN113627150A CN202110743036.9A CN202110743036A CN113627150A CN 113627150 A CN113627150 A CN 113627150A CN 202110743036 A CN202110743036 A CN 202110743036A CN 113627150 A CN113627150 A CN 113627150A
Authority
CN
China
Prior art keywords
thai
lao
laos
chinese
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110743036.9A
Other languages
English (en)
Other versions
CN113627150B (zh
Inventor
毛存礼
满志博
余正涛
高盛祥
黄于欣
王振晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202110743036.9A priority Critical patent/CN113627150B/zh
Publication of CN113627150A publication Critical patent/CN113627150A/zh
Application granted granted Critical
Publication of CN113627150B publication Critical patent/CN113627150B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及基于语言相似性的迁移学习平行句对抽取方法及装置,属自然语言处理领域。本发明首先对泰语、老挝语的语料进行预处理,将泰语中的子词和词语基于音标进行替换,得到泰语、老挝语句子的统一表示,然后,基于泰语‑老挝语之间的语言相似性利用数据迁移和模型迁移的方法将汉语‑泰语的平行句对抽取模型迁移到汉语‑老挝语的模型上,最后,利用预训练好的平行句对抽取模型对输入模型的汉语‑老挝语平行句对进行预测。本发明所提方法能够有效地对语言相似性进行建模和利用资源较丰富的汉语‑泰语句对抽取模型迁移到资源较稀缺的汉语‑老挝语句对抽取模型上,从而达到提升汉语‑老挝语句对抽取模型性能目的,具有重要的理论和实际应用价值。

Description

基于语言相似性的迁移学习平行句对抽取方法及装置
技术领域
本发明涉及基于语言相似性的迁移学习平行句对抽取方法及装置,属于自然语言处理技术领域。
背景技术
利用迁移学习的思想来解决低资源语言语料不足的问题是当前自然语言处理的一个研究热点。利用迁移学习将现有的汉语-泰语平行句对语料迁移到汉语-老挝语中可以取得较好的效果,主要原因是在泰语-老挝语存在一定的语言相似性,汉语-泰语,汉语-老挝语的双语句对较为缺乏,直接导致汉语-泰语以及汉语-老挝语的翻译模型性能不佳,常见的策略是利用一定数量的平行句对构建平行句对抽取的模型,从互联网中的可比语料或伪平行句对中抽取高质量的汉语-泰语,汉语-老挝语的平行句对,可以有效地提升机器翻译性能。将泰语和老挝语不同层面的相似性信息进行融合表征,将汉语-泰语的句子抽取模型与汉语-老挝语的句子抽取模型进行共享,有效利用丰富资源语言的语言信息。
发明内容
本发明提供了基于语言相似性的迁移学习平行句对抽取方法及装置,以用于解决汉语-老挝语标记数据稀缺,小规模训练数据,平行句对的效果差问题,以及解决依靠标记数据训练的模型效果差的问题。
本发明的技术方案是:基于语言相似性的迁移学习平行句对抽取方法,所述方法的具体步骤如下:
Step1、对泰语、老挝语数据进行分词处理,将老挝语的词语、子词以及读音信息基于泰语进行表示;
Step2、基于迁移学习的汉语-泰语平行句对抽取模型训练:将汉语-泰语的平行句对模型进行训练,进一步将其迁移至汉语-老挝语的平行句对抽取模型中;
通过预训练好的汉语-泰语平行句对抽取模型,对输入的汉语-老挝语平行句对进行抽取,判断其句子相似度。
进一步地,所述步骤Step1的具体步骤为:
Step1.1、首先,对输入的泰语、老挝语句子分词处理;
Step1.2、基于泰语-老挝语双语词典、音标词典对泰语-老挝语中的词语进行替换。
进一步地,所述步骤Step1.2的具体步骤为:
在数据预处理层,利用泰语-老挝语之间的词典、子词词典、音标词典三部分进行替换,用于将老挝语表征为泰语,这样在进行数据模型输入以及向量化表示时,能有效的将两种语言的双语数据进行混合训练,以达到数据增强的目的;具体如下:
Step 1.2.1、泰-老词语表示:输入一句包含n个词语的泰语句子STh w=(w1 th,w2 th,...,wn th)和对应的包含n个词语的泰语句子SLao w=(w1 lao,w2 lao,...,wn lao),将根据泰语子词-老挝语词表的对应关系进行替换,中文含义为“我爱中国”的泰语、老挝语分别为
Figure BDA0003143377980000021
分词后的泰语、老挝语句子基于泰语-老挝语的词典进行替换,将老挝语句子的单词替换为泰语,因此,对于输入模型的所有输入的老挝语句子均由泰语句子所表征,输入泰语句子为在词和子词层面替换后的泰语、老挝语句子表示如式(1)所示:
Figure BDA0003143377980000022
由于泰语-老挝语的词典大小受到限制,不能做到所有的老挝语均能够找到对应的泰语单词进行替换,在替换过程中,会有部分老挝语被保留在原有的句子中,但这不会影响后续模型的性能,因为BERT本身需要遮掩机制,保留部分老挝语单词可以做到引入部分噪声提升模型能力的作用。
Step1.2.2、泰-老音标表示:由于泰语、老挝语之间的语言相似性主要体现在双语发音上,而且泰语-老挝语之间的所有字符都有对应的音标进行表示,为了进一步融合泰语、老挝语的相似性特征,并将泰语、老挝语之间的语言相似性进一步作为约束,约束双语的表示形式,显式的对两种语言的语义进行建模,本发明将两种语言的读音相似性,就是泰语-老挝语之间的音标进行向量化表示并将音标信息作为向量同时拼接在向量的表示中,每个输入模型的泰语句子STh w=(w1 th,w2 th,...,wn th)、老挝语句子SLao w=(w1 lao,w2 lao,...,wn lao)都有对应的音标级表示。
例如,中文含义为“我爱中国。”泰语、老挝语表示分别为
Figure BDA0003143377980000023
Figure BDA0003143377980000024
两个句子依据构建的音标词典被表示为音标后的形式为
Figure BDA0003143377980000025
这些表示将进一步约束两种语言的相似性。泰语和老挝语句子表示为音标后形式如公式(2):
Figure BDA0003143377980000031
进一步地,所述步骤Step2的具体步骤为:
Step2.1、基于预训练语言模型获取泰-老词向量:在输入层部分,利用数据迁移的思想,将泰语-汉语以及老挝语-汉语双语数据进行混合训练。BERT多语言预训练模型中包括基于维基百科获取到的108种语言,其中,东南亚语言包括泰语、缅甸语以及越南语,并不包含老挝语。因此,利用泰语老挝语之间的语言相似性在数据层面上扩充老挝语-汉语之间的数据;具体的,基于BERT生成输入的词向量表示,这里生成的泰语、老挝语词向量维度为768,基于预训练语言模型的方式可以生成具有上下文信息的词向量表征,具体如公式(3):
Figure BDA0003143377980000032
Step2.2、获取泰-老音标向量:子词是语言中最小的语义粒度,利用子词可以表示语言中的大部分词语的关系,将泰语-老挝语-子词-音标根据发音相似性构建词典。对于泰语、老挝语的音标向量,基于Word2vec使用Skip-gram语言模型在构建的音标字典基础上生成的,在泰语-老挝语的句子替换的过程中,为了更好的得到两种语言句子的对应关系,首先,将泰语-老挝语基于词语级别进行替换,由于泰语-老挝语之间不是所有的词语都可以对应得到替换,因此,在这里,我们利用子词的对应关系,将无法替换的泰语-老挝语之间的字符与子词进行替换,另外,将生成的字符和子词对应词表进行替换以及表征。使用这种方式的好处是可以更容易获得任何字符表示符号的词向量,基于模型训练得到的泰语、老挝语的音标向量表示为
Figure BDA0003143377980000033
Figure BDA0003143377980000034
Step2.3、泰-老词向量、音标向量拼接:基于以上步骤获得了泰语、老挝语的词语以及音标向量,将泰语、老挝语的词向量、音标向量进行拼接;如下公式所示:
Figure BDA0003143377980000035
Step2.4、模型训练层:利用Poly编码器对双语句子进行编码计算双语句子相似度,相比较于双向编码器以及跨语言编码器,Poly编码器的结构可以更快速准确的提取更多的双语句子信息,对于输入Poly编码器的源语言句子以及目标语言句子,Poly编码器结构中都包含两个编码器,并将目标语言汉语编码为单个向量表示,对于输入模型的每个泰语、老挝语句子均可由Step2.3的m个泰语、老挝语的词向量、音标向量的拼接形式进行表示,具体如下:
STh E=(Eth 1,Eth 2,...,Eth m)
SLao E=(Elao 1,Elao 2,...,Elao m) (5)
向量化后的泰语、老挝语句子将进一步基于注意力机制将被表示为n个向量y1 Th\Lao,y2 Th\Lao,...,yn Th\Lao,其中,n将影响整个模型训练过程中的速度,为了获得n个输入的全局特征,整个模型训练部分学习到n个节点的向量为c1,...,cn,其中ci通过参与上一层的所有输出来提取表示形式yi Th\Lao;yi Th\Lao的表示如下式所示:
Figure BDA0003143377980000041
其中,
Figure BDA0003143377980000042
表示源语言的训练权重,h1...hN表示基于Attention机制生成的上下文信息向量表示;N表示源语言的训练权重个数;
最后,鉴于n个全局上下文功能,使用目标语言汉语yCh作为训练过程中的查询向量:
Figure BDA0003143377980000043
其中,(w1,...,wm)=softmax(yCh·y1 Th\Lao,...,yCh·ym Th\Lao)表示目标语言权重信息;
最后,输出的泰语、老挝语句子与目标语言汉语句子的相似计算的点积得分就是Score(Th\Lao,Ch)=yi Th\Lao·yCh
基于语言相似性的迁移学习平行句对抽取装置,包括如下模块:
泰语-老挝语预处理模块,用于将老挝语的词语、子词以及读音信息基于泰语进行表示;
基于迁移学习的平行句对抽取模块,用于将汉语-泰语的平行句对抽取模型迁移到汉语-老挝语的平行句对抽取模型中;
平行句对抽取模块,用于通过预训练好的汉语-泰语平行句对抽取模型,对输入的汉语-老挝语平行句对进行抽取。
本发明的有益效果是:
1、将泰语和老挝语不同层面的相似性信息进行融合表征,在训练过程中达到汉语-泰语的句子抽取模型与汉语-老挝语的句子抽取模型进行共享的目的。
2、利用泰语、老挝语的相似性构建不同层面的向量表示,增强语言之间的相似性表示。
3、基于泰语-老挝语词语、子词以及读音的相似性,利用预训练BERT多语言模型在老挝语数据集上微调,基于深度多编码机制获取句子中的词语之间的依赖信息提升了老挝语-汉语双语句子抽取模型性能。
附图说明
图1为基于语言相似性的迁移学习平行句对抽取方法;
图2为本发明的整体流程图;
具体实施方式
实施例1:如图1-2所示,基于迁移学习的缅甸语依存句法分析方法,所述基于语言相似性的迁移学习平行句对抽取方法的具体步骤如下:
Step1、对泰语、老挝语数据进行分词处理,将老挝语的词语、子词以及读音信息基于泰语进行表示;
作为本发明的优选方案,所述步骤Step1的具体步骤为:
Step1.1、首先,利用分词工具对输入的泰语、老挝语句子分词处理;
Step1.2、基于泰语-老挝语双语词典、音标词典对泰语-老挝语中的词语进行替换。
作为本发明的优选方案,所述步骤Step1.2的具体步骤为:
在数据预处理层,利用泰语-老挝语之间的词典、子词词典、音标词典三部分进行替换,用于将老挝语表征为泰语,这样在进行数据模型输入以及向量化表示时,能有效的将两种语言的双语数据进行混合训练,以达到数据增强的目的;具体如下:
Step 1.2.1、泰-老词语表示:输入一句包含n个词语的泰语句子STh w=(w1 th,w2 th,...,wn th)和对应的包含n个词语的泰语句子SLao w=(w1 lao,w2 lao,...,wn lao),将根据泰语子词-老挝语词表的对应关系进行替换,中文含义为“我爱中国”的泰语、老挝语分别为
Figure BDA0003143377980000051
分词后的泰语、老挝语句子基于泰语-老挝语的词典进行替换,将老挝语句子的单词替换为泰语,因此,对于输入模型的所有输入的老挝语句子均由泰语句子所表征,输入泰语句子为在词和子词层面替换后的泰语、老挝语句子表示如公式(1)。
STh s=(s1 th,s2 th,...,sn th) (1)
SLao s=(s1 lao,s2 lao,...,sn lao)
由于泰语-老挝语的词典大小受到限制,不能做到所有的老挝语均能够找到对应的泰语单词进行替换,在替换过程中,会有部分老挝语被保留在原有的句子中,但这不会影响后续模型的性能,因为BERT本身需要遮掩机制,保留部分老挝语单词可以做到引入部分噪声提升模型能力的作用。
Step1.2.2、泰-老音标表示:由于泰语、老挝语之间的语言相似性主要体现在双语发音上,而且泰语-老挝语之间的所有字符都有对应的音标进行表示,为了进一步融合泰语、老挝语的相似性特征,并将泰语、老挝语之间的语言相似性进一步作为约束,约束双语的表示形式,显式的对两种语言的语义进行建模,本发明将两种语言的读音相似性,就是泰语-老挝语之间的音标进行向量化表示并将音标信息作为向量同时拼接在向量的表示中,每个输入模型的泰语句子STh w=(w1 th,w2 th,...,wn th)、老挝语句子SLao w=(w1 lao,w2 lao,...,wn lao)都有对应的音标级表示。
例如,中文含义为“我爱中国。”泰语、老挝语表示分别为
Figure BDA0003143377980000061
Figure BDA0003143377980000062
两个句子依据构建的音标词典被表示为音标后的形式为
Figure BDA0003143377980000063
这些表示将进一步约束两种语言的相似性。泰语和老挝语句子表示为音标后形式如公式(2):
Figure BDA0003143377980000064
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、基于预训练语言模型的泰-老词向量:在输入层部分,利用数据迁移的思想,将泰语-汉语以及老挝语-汉语双语数据进行混合训练。BERT多语言预训练模型中包括基于维基百科获取到的108种语言,其中,东南亚语言包括泰语、缅甸语以及越南语,并不包含老挝语。因此,利用泰语老挝语之间的语言相似性在数据层面上扩充老挝语-汉语之间的数据,基于BERT生成输入的词向量表示,这里生成的泰语、老挝语词向量维度为768,基于预训练语言模型的方式可以生成具有上下文信息的词向量表征,具体如公式(3)。
Figure BDA0003143377980000065
Figure BDA0003143377980000066
Step2.2、泰-老音标向量:子词是语言中最小的语义粒度,利用子词可以表示语言中的大部分词语的关系,将泰语-老挝语-子词-音标根据发音相似性构建词典,具体如表1所示。对于泰语、老挝语的音标向量,基于Word2vec使用Skip-gram语言模型在构建的音标字典基础上生成的,在泰语-老挝语的句子替换的过程中,为了更好的得到两种语言句子的对应关系,首先,将泰语-老挝语基于词语级别进行替换,由于泰语-老挝语之间不是所有的词语都可以对应得到替换,因此,在这里,我们利用子词的对应关系,将无法替换的泰语-老挝语之间的字符与子词进行替换,另外,将生成的字符和子词对应词表进行替换以及表征。使用这种方式的好处是可以更容易获得任何字符表示符号的词向量,基于模型训练得到的泰语、老挝语的音标向量表示为
Figure BDA0003143377980000071
Figure BDA0003143377980000072
Step2.3、泰-老词向量、音标向量拼接:基于以上步骤获得了泰语、老挝语的词语以及音标向量,为了进行模型训练,将泰语、老挝语的词向量、音标向量进行拼接,如公式(4)。
Figure BDA0003143377980000073
Step2.4、模型训练层:利用Poly编码器对双语句子进行编码计算双语句子相似度,相比较于双向编码器以及跨语言编码器,Poly编码器的结构可以更快速准确的提取更多的双语句子信息,对于输入Poly编码器的源语言句子以及目标语言句子,其结构中都包含两个编码器,并将目标语言汉语编码为单个向量表示,对于输入模型的每个泰语、老挝语句子均可由Step2.3的m个泰语、老挝语的词向量、音标向量的拼接形式进行表示,具体如下:
Figure BDA0003143377980000074
另外,这些向量化后的泰语、老挝语句子将进一步基于注意力机制被表示为n个向量y1 Th\Lao,y2 Th\Lao,...,yn Th\Lao,其中,n将影响整个模型训练过程中的速度,为了获得n个输入的全局特征,整个模型训练部分学习到n个节点的向量为c1,...,cn,其中ci通过参与上一层的所有输出来提取表示形式yi Th\Lao。yi Th\Lao的表示如公式(6)所示:
Figure BDA0003143377980000075
其中,
Figure BDA0003143377980000081
表示源语言的训练权重,h1...hN表示基于Attention机制生成的上下文信息向量表示。
最后,鉴于n个全局上下文功能,使用目标语言汉语yCh作为训练过程中的查询向量:
Figure BDA0003143377980000082
其中,(w1,...,wm)=softmax(yCh·y1 Th\Lao,...,yCh·ym Th\Lao)表示目标语言权重信息。
最后,输出的泰语、老挝语句子与目标语言汉语句子的相似计算的点积得分就是Score(Th\Lao,Ch)=yi Th\Lao·yCh
基于语言相似性的迁移学习平行句对抽取装置,包括如下模块:
泰语-老挝语预处理模块,用于将老挝语的词语、子词以及读音信息基于泰语进行表示;
基于迁移学习的平行句对抽取模块,用于将汉语-泰语的平行句对抽取模型迁移到汉语-老挝语的平行句对抽取模型中;
平行句对抽取模块,用于通过预训练好的汉语-泰语平行句对抽取模型,对输入的汉语-老挝语平行句对进行抽取。
具体的,从开源语料库OPUS1中获取汉语-泰语平行语料,从开源语料库亚洲语言树库(ALT)2获取汉语-老挝语平行语料以及人工构建部分语料。具体实验过程中使用的训练集、测试集以及验证集如表1、2所示。
表1汉语-泰语实验数据集
训练集 验证集 测试集
句对数目 196000 2000 2000
表2汉语-老挝语实验数据集
训练集 验证集 测试集
句对数目 96000 2000 2000
为了测试提出模型性能好坏,评价指标选用精确率(Precision),召回率(Recall)和F1值(F1-Measure),用于衡量模型是否能够正确地对汉语-老挝语、汉语-泰语平行句对进行分类。具体公式如(7)、(8)以及(9)所示:
Figure BDA0003143377980000091
Figure BDA0003143377980000092
Figure BDA0003143377980000093
其中TP是真的正例,FP是假的反例,FP是假正例,TN是真的反例。
在实验部分,为了验证提出方法的有效性,将提出方法与现有基线模型进行对比,分别是基于机器学习的方法:SVM,LR,以及深度学习的方法BiLSTM,具体的基线模型介绍如下(1)-(3):
如表3所示,本发明方法在三种数据集的组合上均取得了较好的效果,相比较于机器学习SVM、LR得方式,本发明方法基于预训练BERT语言模型的方式可以获得更好的词向量语义表征,基于注意力机制的方式获得更好的上下文信息表征,传统的基于机器学习的方式,依赖于数据规模的大小,在低资源得泰语、老挝语上表现不佳,受到数据规模的限制,SVM、LR的方法结果均提升不明显。基线模型分别基于两种不同的测试集、训练集进行实验分析,通过纵向比较发现,汉泰的实验效果均优于汉老的实验效果,这是由于汉泰的实验数据集规模相较于汉老的实验数据集规模较大。
表3与其他模型对比实验的实验结果
Figure BDA0003143377980000094
Figure BDA0003143377980000101
相比较于基于深度学习的方法,本发明方法取得了相当的效果,由于提出方法是基于Poly方法上改进,因此,基于Poly编码器方法的效果与提出方法效果相当,另外,基于BERT的方式,由于多语言BERT词表中缺少老挝语词语,因此,在老挝语的实验效果上相对较低,进一步验证了提出方法充分利用了泰语-老挝语之间的语言相似性,提升平行句对抽取模型的性能。
当训练语料为汉泰与汉老语料混合时,提出方法的F1值在汉泰、汉老的测试集上分别达到了76.36%以及56.15%,这说明将汉泰、汉老双语进行混合训练时,达到了数据增强的目的,两种不同的语料相互混合,相似语言之间的训练参数得到了共享,进一步说明了提出方法的优越性,另外,当实验训练集为汉泰,测试集为汉泰时,提出方法的F1值达到了74.16%,当实验训练集为汉老,测试集为汉老时,提出方法的F1值达到了53.88%,直接使用Poly编码的方式也可以很好的获取到双语句子的信息。
在本实验中,为了验证不同的正负样本比例对实验结果的影响,设置不同的实验正负样本比例进行实验,具体的实验结果如表4、5所示。
表4测试集为泰语时不同正负样本的比例对实验结果的影响
样本比例 训练集语料 测试集语料 P R F1
1:1 汉泰+汉老 汉泰 65.65 77.20 70.96
1:2 汉泰+汉老 汉泰 60.19 76.20 67.26
1:3 汉泰+汉老 汉泰 70.66 80.20 75.13
1:4 汉泰+汉老 汉泰 72.30 80.90 76.36
表5测试集为老挝语时不同正负样本的比例对实验结果的影响
Figure BDA0003143377980000102
Figure BDA0003143377980000111
表4、表5表明了当在实验设置中保持正负样本比例为1:4时,实验效果达到最佳,正负样本的比例会对模型训练过程中参数产生影响,在一定程度上控制数据的比例才可以达到最好的效果,这是因为当训练的样本足够大时,扩充一定的负样本会增强模型的泛化能力,当正负样本不平衡时,对汉泰、汉老的平行句对抽取模型的性能影响均较明显。
如表6、表7在实验中,我们设计了消融实验对实验过程中不同的部分对实验结果的影响进行了探究,分别是子词、词语、读音以及子词+读音+词语四组对比试验,具体实验结果如表3.7、表3.8所示。在词语+子词+读音三个粒度叠加后的实验效果最佳,这是因为泰语-老挝语之间不同形式的相似性得到了进一步的表示,三种不同粒度的相似性进一步进行融合,较好的将更深层次的相似性进行融合,得到最好的表征形式,仅仅利用单词层面的相似性,没有读音的约束,会造成部分无法匹配的单词词义距离更远。仅仅利用泰-老之间的读音作为相似性进行约束表征,无法将词语词义层面的信息进行融合,将泰语-老挝语的词语、子词以及读音三个层面的相似性互相叠加、约束得到最准确的相似性表征对模型效果提升最明显。
表6测试集为泰语时消融实验对实验结果的影响
不同组件部分 训练集语料 测试集语料 P R F1
子词 汉泰+汉老 汉泰 56.43 58.90 57.54
词语 汉泰+汉老 汉泰 50.98 56.11 53.45
读音 汉泰+汉老 汉泰 67.85 66.55 67.21
子词+读音+词语 汉泰+汉老 汉泰 72.30 80.90 76.36
表7测试集为老挝语时消融实验对实验结果的影响
Figure BDA0003143377980000112
Figure BDA0003143377980000121
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (5)

1.基于语言相似性的迁移学习平行句对抽取方法,其特征在于:所述方法的具体步骤如下:
Step1、对泰语、老挝语数据进行预处理:将老挝语的词语、子词以及读音信息基于泰语进行表示;
Step2、基于迁移学习的汉语-泰语平行句对抽取模型训练:将汉语-泰语的平行句对模型进行训练,进一步将其迁移至汉语-老挝语的平行句对抽取模型中;
通过预训练好的汉语-泰语平行句对抽取模型,对输入的汉语-老挝语平行句对进行抽取,判断其句子相似度。
2.根据权利要求1所述的基于语言相似性的迁移学习平行句对抽取方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、首先,对输入的泰语、老挝语句子分词处理;
Step1.2、基于泰语-老挝语双语词典、音标词典对泰语-老挝语中的词语进行替换。
3.根据权利要求1所述的基于语言相似性的迁移学习平行句对抽取方法,其特征在于:所述步骤Step1.2的具体步骤为:
在数据预处理层,利用泰语-老挝语之间的词典、子词词典、音标词典三部分进行替换,用于将老挝语表征为泰语,这样在进行数据模型输入以及向量化表示时,能有效的将两种语言的双语数据进行混合训练,以达到数据增强的目的;具体如下:
Step1.2.1、泰-老词语表示:输入一句包含n个词语的泰语句子STh w=(w1 th,w2 th,...,wn th)和对应的包含n个词语的泰语句子SLao w=(w1 lao,w2 lao,...,wn lao),将根据泰语子词-老挝语词表的对应关系进行替换,分词后的泰语、老挝语句子基于泰语-老挝语的词典进行替换,将老挝语句子的单词替换为泰语,因此,对于输入模型的所有输入的老挝语句子均由泰语句子所表征,输入泰语句子为在词和子词层面替换后的泰语、老挝语句子表示如下式所示:
STh s=(s1 th,s2 th,...,sn th)
SLao s=(s1 lao,s2 lao,...,sn lao)
Step1.2.2、泰-老音标表示:将泰语-老挝语之间的音标进行向量化表示并将音标信息作为向量同时拼接在句子向量的表示中,每个输入模型的泰语句子STh w=(w1 th,w2 th,...,wn th)、老挝语句子SLao w=(w1 lao,w2 lao,...,wn lao)都有对应的音标级表示。
4.根据权利要求1所述的基于语言相似性的迁移学习平行句对抽取方法,其特征在于:所述步骤Step2的具体步骤为:
Step2.1、基于预训练语言模型获取泰-老词向量:在输入层部分,利用数据迁移的思想,将汉语-泰语以及汉语-老挝语双语数据进行混合训练;具体的,基于BERT生成输入的词向量表示,如下公式所示:
Figure FDA0003143377970000021
Step2.2、获取泰-老音标向量:将泰语-老挝语-子词-音标根据发音相似性构建词典,对于泰语、老挝语的音标向量,基于Word2vec使用Skip-gram语言模型在构建的音标字典基础上生成的,在泰语-老挝语的句子替换的过程中,首先,将泰语-老挝语基于词语级别进行替换,利用子词的对应关系,将无法替换的泰语-老挝语之间的字符与子词进行替换,另外,将生成的字符和子词对应表进行替换以及表征,基于模型训练得到的泰语、老挝语的音标向量表示为
Figure FDA0003143377970000022
Figure FDA0003143377970000023
Step2.3、泰-老词向量、音标向量拼接:基于以上步骤获得了泰语、老挝语的词语以及音标向量,将泰语、老挝语的词向量、音标向量进行拼接;如下公式所示:
Figure FDA0003143377970000024
Figure FDA0003143377970000025
Step2.4、模型训练层:利用Poly编码器对双语句子进行编码计算双语句子相似度,对于输入Poly编码器的源语言句子以及目标语言句子,Poly编码器结构中都包含两个编码器,并将目标语言汉语编码为单个向量表示,对于输入模型的每个泰语、老挝语句子均可由Step2.3的m个泰语、老挝语的词向量、音标向量的拼接形式进行表示,具体如下:
STh E=(Eth 1,Eth 2,...,Eth m)
SLao E=(Elao 1,Elao 2,...,Elao m)
向量化后的泰语、老挝语句子将进一步基于注意力机制将被表示为n个向量y1 Th\Lao,y2 Th\Lao,...,yn Th\Lao,其中,n将影响整个模型训练过程中的速度,为了获得n个输入的全局特征,整个模型训练部分学习到n个节点的向量为c1,...,cn,其中ci通过参与上一层的所有输出来提取表示形式yi Th\Lao;yi Th\Lao的表示如下式所示:
Figure FDA0003143377970000031
其中,
Figure FDA0003143377970000032
表示源语言的训练权重,h1...hN表示基于Attention机制生成的上下文信息向量表示;N表示源语言的训练权重个数;
最后,鉴于n个全局上下文功能,使用目标语言汉语yCh作为训练过程中的查询向量:
Figure FDA0003143377970000033
其中,(w1,...,wm)=softmax(yCh·y1 Th\Lao,...,yCh·ym Th\Lao)表示目标语言权重信息;
最后,输出的泰语、老挝语句子与目标语言汉语句子的相似计算的点积得分就是Score(Th\Lao,Ch)=yi Th\Lao·yCh
5.基于语言相似性的迁移学习平行句对抽取装置,其特征在于:包括如下模块:
泰语-老挝语预处理模块,用于将老挝语的词语、子词以及读音信息基于泰语进行表示;
基于迁移学习的平行句对抽取模块,用于将汉语-泰语的平行句对抽取模型迁移到汉语-老挝语的平行句对抽取模型中;
平行句对抽取模块,用于通过预训练好的汉语-泰语平行句对抽取模型,对输入的汉语-老挝语平行句对进行抽取。
CN202110743036.9A 2021-07-01 2021-07-01 基于语言相似性的迁移学习平行句对抽取方法及装置 Active CN113627150B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110743036.9A CN113627150B (zh) 2021-07-01 2021-07-01 基于语言相似性的迁移学习平行句对抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110743036.9A CN113627150B (zh) 2021-07-01 2021-07-01 基于语言相似性的迁移学习平行句对抽取方法及装置

Publications (2)

Publication Number Publication Date
CN113627150A true CN113627150A (zh) 2021-11-09
CN113627150B CN113627150B (zh) 2022-12-20

Family

ID=78378751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110743036.9A Active CN113627150B (zh) 2021-07-01 2021-07-01 基于语言相似性的迁移学习平行句对抽取方法及装置

Country Status (1)

Country Link
CN (1) CN113627150B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492387A (zh) * 2022-04-18 2022-05-13 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于句法结构的领域自适应方面术语抽取方法及系统
CN114595687A (zh) * 2021-12-20 2022-06-07 昆明理工大学 基于BiLSTM的老挝语文本正则化方法
CN114970571A (zh) * 2022-06-23 2022-08-30 昆明理工大学 一种基于双判别器的汉泰伪平行句对生成方法
CN114970567A (zh) * 2021-12-01 2022-08-30 昆明理工大学 一种基于npmi方法的汉泰平行句对过滤方法
CN115329785A (zh) * 2022-10-15 2022-11-11 小语智能信息科技(云南)有限公司 融入音素特征的英-泰-老多语言神经机器翻译方法及装置
CN118333067A (zh) * 2024-06-13 2024-07-12 小语智能信息科技(云南)有限公司 基于编码转写增强词嵌入迁移的老-中神经机器翻译方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1657651A2 (en) * 2004-11-04 2006-05-17 Microsoft Corporation Extracting treelet translation pairs
CN102591857A (zh) * 2011-01-10 2012-07-18 富士通株式会社 一种平行语料资源获取方法及系统
CN106202068A (zh) * 2016-07-25 2016-12-07 哈尔滨工业大学 基于多语平行语料的语义向量的机器翻译方法
CN106202037A (zh) * 2016-06-30 2016-12-07 昆明理工大学 基于组块的越南语短语树构建方法
US20170364510A1 (en) * 2016-06-21 2017-12-21 EMC IP Holding Company LLC Method and device for processing a multi-language text
JP2018081495A (ja) * 2016-11-16 2018-05-24 株式会社Nttドコモ 対訳文対出力装置
CN108549629A (zh) * 2018-03-19 2018-09-18 昆明理工大学 一种结合相似度和图匹配的老-汉双语句子对齐方法
CN108563640A (zh) * 2018-04-24 2018-09-21 中译语通科技股份有限公司 一种多语言对的神经网络机器翻译方法及系统
CN110362820A (zh) * 2019-06-17 2019-10-22 昆明理工大学 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法
CN110717341A (zh) * 2019-09-11 2020-01-21 昆明理工大学 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
US20210157991A1 (en) * 2019-11-25 2021-05-27 National Central University Computing device and method for generating machine translation model and machine-translation device

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1657651A2 (en) * 2004-11-04 2006-05-17 Microsoft Corporation Extracting treelet translation pairs
CN102591857A (zh) * 2011-01-10 2012-07-18 富士通株式会社 一种平行语料资源获取方法及系统
US20170364510A1 (en) * 2016-06-21 2017-12-21 EMC IP Holding Company LLC Method and device for processing a multi-language text
CN106202037A (zh) * 2016-06-30 2016-12-07 昆明理工大学 基于组块的越南语短语树构建方法
CN106202068A (zh) * 2016-07-25 2016-12-07 哈尔滨工业大学 基于多语平行语料的语义向量的机器翻译方法
JP2018081495A (ja) * 2016-11-16 2018-05-24 株式会社Nttドコモ 対訳文対出力装置
CN108549629A (zh) * 2018-03-19 2018-09-18 昆明理工大学 一种结合相似度和图匹配的老-汉双语句子对齐方法
CN108563640A (zh) * 2018-04-24 2018-09-21 中译语通科技股份有限公司 一种多语言对的神经网络机器翻译方法及系统
CN110362820A (zh) * 2019-06-17 2019-10-22 昆明理工大学 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法
CN110717341A (zh) * 2019-09-11 2020-01-21 昆明理工大学 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
US20210157991A1 (en) * 2019-11-25 2021-05-27 National Central University Computing device and method for generating machine translation model and machine-translation device

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YUNSU KIM ET.AL: "Pivot-based Transfer Learning for Neural Machine Translation between Non-English Languages", 《ARXIV:1909.09524V1》 *
ZHIQIANG YU ET.AL: "Transfer Learning for Chinese-Lao Neural Machine Translation with Linguistic Similarity", 《COMMUNICATION IN COMPUTER AND INFORMATION SCIENCE》 *
林思琦等: "融入多特征的汉越新闻观点句抽取方法", 《中文信息学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114970567A (zh) * 2021-12-01 2022-08-30 昆明理工大学 一种基于npmi方法的汉泰平行句对过滤方法
CN114595687A (zh) * 2021-12-20 2022-06-07 昆明理工大学 基于BiLSTM的老挝语文本正则化方法
CN114595687B (zh) * 2021-12-20 2024-04-19 昆明理工大学 基于BiLSTM的老挝语文本正则化方法
CN114492387A (zh) * 2022-04-18 2022-05-13 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于句法结构的领域自适应方面术语抽取方法及系统
CN114492387B (zh) * 2022-04-18 2022-07-19 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于句法结构的领域自适应方面术语抽取方法及系统
CN114970571A (zh) * 2022-06-23 2022-08-30 昆明理工大学 一种基于双判别器的汉泰伪平行句对生成方法
CN115329785A (zh) * 2022-10-15 2022-11-11 小语智能信息科技(云南)有限公司 融入音素特征的英-泰-老多语言神经机器翻译方法及装置
CN118333067A (zh) * 2024-06-13 2024-07-12 小语智能信息科技(云南)有限公司 基于编码转写增强词嵌入迁移的老-中神经机器翻译方法

Also Published As

Publication number Publication date
CN113627150B (zh) 2022-12-20

Similar Documents

Publication Publication Date Title
CN113627150B (zh) 基于语言相似性的迁移学习平行句对抽取方法及装置
Zhai et al. Neural models for sequence chunking
CN106096664B (zh) 一种基于社交网络数据的情感分析方法
CN107273358B (zh) 一种基于管道模式的端到端英文篇章结构自动分析方法
Zhang et al. A fast, compact, accurate model for language identification of codemixed text
CN109614620B (zh) 一种基于HowNet的图模型词义消歧方法和系统
Ali et al. Boosting Arabic named-entity recognition with multi-attention layer
CN110705253A (zh) 基于迁移学习的缅甸语依存句法分析方法及装置
CN114064901B (zh) 一种基于知识图谱词义消歧的书评文本分类方法
CN114595687B (zh) 基于BiLSTM的老挝语文本正则化方法
CN110502759B (zh) 融入分类词典的汉越混合网络神经机器翻译集外词处理方法
Zaharia et al. Cross-lingual transfer learning for complex word identification
Lefever et al. Identifying cognates in English-Dutch and French-Dutch by means of orthographic information and cross-lingual word embeddings
CN116757188A (zh) 一种基于对齐查询实体对的跨语言信息检索训练方法
Rajan et al. Survey of nlp resources in low-resource languages nepali, sindhi and konkani
CN109960782A (zh) 一种基于深度神经网络的藏文分词方法及装置
Xie et al. Automatic chinese spelling checking and correction based on character-based pre-trained contextual representations
Krotova et al. A joint approach to compound splitting and idiomatic compound detection
Basumatary et al. Deep Learning Based Bodo Parts of Speech Tagger
Raza et al. Saraiki Language Word Prediction And Spell Correction Framework
Yadav et al. Image Processing-Based Transliteration from Hindi to English
Tarnavskyi Improving sequence tagging for grammatical error correction
Jin et al. Research on multi-granularity ensemble learning based on Korean
Namboodiri et al. On using classical poetry structure for Indian language post-processing
Zohrabi et al. Borderless azerbaijani processing: Linguistic resources and a transformer-based approach for azerbaijani transliteration

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
OL01 Intention to license declared
OL01 Intention to license declared