CN116822495B - 基于对比学习的汉-老、泰平行句对抽取方法及装置 - Google Patents
基于对比学习的汉-老、泰平行句对抽取方法及装置 Download PDFInfo
- Publication number
- CN116822495B CN116822495B CN202311113316.7A CN202311113316A CN116822495B CN 116822495 B CN116822495 B CN 116822495B CN 202311113316 A CN202311113316 A CN 202311113316A CN 116822495 B CN116822495 B CN 116822495B
- Authority
- CN
- China
- Prior art keywords
- thai
- chinese
- laos
- training
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 65
- 238000012549 training Methods 0.000 claims abstract description 132
- 238000000034 method Methods 0.000 claims abstract description 88
- 230000006870 function Effects 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000010276 construction Methods 0.000 claims description 32
- 239000013598 vector Substances 0.000 claims description 29
- 238000004364 calculation method Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 13
- 238000002474 experimental method Methods 0.000 claims description 12
- 238000006467 substitution reaction Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 12
- 238000012512 characterization method Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 2
- 238000007906 compression Methods 0.000 claims description 2
- 230000008859 change Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 14
- 238000013519 translation Methods 0.000 abstract description 4
- 230000001537 neural effect Effects 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000002679 ablation Methods 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明涉及基于对比学习的汉‑老、泰平行句对抽取方法及装置,属自然语言处理领域。汉‑泰和汉‑老平行句对数据稀缺,从可比语料中抽取平行句对是提升低资源神经机器翻译质量的有效手段。针对现有的平行句对抽取方法应用到汉‑泰、汉‑老上时,泰语和老挝语训练数据稀缺导致模型对泰语和老挝语的表征能力弱、抽取效果不好的问题,本发明方法包括文本数据预处理、训练基于对比学习的汉语‑老挝语、泰语平行句对抽取模型、进行汉语‑老挝语、泰语平行句对抽取三部分。根据这三个功能模块化制成基于对比学习的平行句对抽取装置,从汉语‑泰语及汉语‑老挝语可比语料中抽取平行句对,本发明有效提升了汉‑泰和汉‑老平行句对抽取效果。
Description
技术领域
本发明涉及基于对比学习的汉-老、泰平行句对抽取方法及装置,属于自然语言处理技术领域。
背景技术
神经机器翻译模型的训练依赖于大规模的平行语料,语料的数量及质量直接决定了神经机器翻译模型的翻译质量。泰语和老挝语都属于低资源语言,开源的汉泰及汉老平行语料稀缺,其语料库的构建是当前急需解决的问题。随着中国与东南亚国家交流的日益密切,互联网上出现了一些内容相同或相近的双语网站,从该类网站上爬取大量可比句对,并训练平行句对抽取模型从中抽取平行语料,是缓解汉泰和汉老语料稀缺的有效手段。
平行句对抽取主要是通过计算跨语言句子相似度实现的。早期句子特征的抽取依赖于特征工程,该类方法受限于先验知识的构建,且可扩展性较差。随着深度学习的发展,基于神经网络的平行句对抽取方法逐渐出现。现有双语平行句对抽取方法主要利用孪生网络分别对双语句子进行特征提取并计算其语义相似度,该类方法需要部分基础数据,通过联合训练的方式利用资源较丰富的汉泰语料提升汉老平行句对抽取模型的效果是缓解汉老资源稀缺问题的有效方式,但直接联合训练汉泰和汉老语料会导致泰语和老挝语语义空间不一致。泰语和老挝语书写体系完全不同,语义空间差异较大,但二者句法相似度较高,都遵循主语+谓语+宾语(Subject-Verb-Object, SVO)的语序规则,且形容词都是后置的,现有方法未充分利用其句法相似性拉近语义空间距离。同时,现有方法在进行相似度计算时易出现相似不平行句对的误判,本发明认为这是由于模型对句子的表征能力弱,导致对句子的语义平行关系判定困难。针对以上问题,本发明提出了基于对比学习的汉-老、泰平行句对抽取方法。
发明内容
本发明提供了基于对比学习的汉-老、泰平行句对抽取方法及装置,以缓解现有方法在进行相似度计算时易出现相似不平行句对的误判的问题。
本发明的技术方案是:第一方面,本发明提供基于对比学习的汉-老、泰平行句对抽取方法,所述方法的具体步骤如下:
Step1、进行文本数据预处理:首先从OPUS和亚洲语言树库上获取了汉语-泰语和汉语-老挝语平行语料,并使用爬虫技术从双语网站上获取汉语-泰语,汉语-老挝语可比语料,以此为基准进行数据集构建,构建方法为融合句法特点的汉语-老挝语、汉语-泰语训练数据集构建方法及基于泰语、老挝语发音相似性引导的泰语-老挝语双语词典构建方法;
Step2、训练基于对比学习的汉语-老挝语、泰语平行句对抽取模型:首先,通过XLM-R预训练模型对文本进行编码,获得更丰富的语义表征,并引入多语言联合训练的方式缓解汉语-老挝语、泰语抽取模型训练数据稀缺问题,其次,引入对比学习方法训练模型,增强模型对泰语和老挝语的表征能力;
Step3、进行汉语-老挝语、泰语平行句对抽取:将训练好的汉语-老挝语、泰语平行句对抽取模型部署为平行句对抽取系统,从汉语-老挝语和汉语-泰语可比语料中抽取平行句对。
进一步地,所述Step1的具体步骤为:
Step1.1、首先从OPUS和亚洲语言树库上获取了汉语-泰语和汉语-老挝语平行语料,构建汉语、老挝语、泰语语法解析工具,并使用爬虫技术从泰语-汉语和老挝语-汉语双语网站获取汉语-泰语,汉语-老挝语可比语料;融合句法特点的汉语-老挝语、汉语-泰语训练数据集构建方法包括:通过正则匹配、网页标签清除,长度筛查方式对可比语料进行清洗,然后使用构建的语法解析工具进行句法分析,选取句法结构相似的汉语-泰语,汉语-老挝语语料为伪平行语料,结合人工筛查,从中构建了汉语-老挝语、泰语平行句对抽取模型训练数据集,并划分训练集、验证集和测试集;
Step1.2、构建泰语-老挝语双语词典,构建方法为基于泰语、老挝语发音相似性引导的泰语-老挝语双语词典构建方法,包括:利用泰语和老挝语的互译词具有发音相似性的特点,使用泰语、老挝语转音标工具构建泰语词、老挝语词-音标映射,通过词语发音相似度匹配,即音标的编辑距离匹配结合人工标注的方式构建泰语-老挝语双语词典。
进一步地,所述Step2的具体步骤为:
Step2.1、在孪生网络模型的基础上引入XLM-R预训练语言模型对文本进行编码,提高模型的跨语言编码表征能力;
Step2.2、为了进一步拉近相似文本在语义空间中的距离,同时拉开不相似文本的
语义差距,在基于XLM-R的孪生网络模型基础上引入对比学习方法训练模型,对比学习的关
键在于正负样例的构建,对于给定的汉语-泰语或老挝语的训练句对样本,采用了两
种方式从现有训练数据中构建样例,第一种是利用各个句子和同批次的其他句子配对构建
负样本,第二种是利用泰语和老挝语的句法相似性根据多语言同义词替换的方式构
建一部分伪数据作为正样本,并通过第一种方法对该部分数据同样构造一部分负样
本;
其中,表示第i个中文句子,表示第i个泰语或老挝语句子,表示配对后的第i
个泰语或老挝语句子,表示第i个经过词替换处理的新的泰语或老挝语句子,表示配对
后第i个经过词替换处理的新的泰语或老挝语句子。
进一步地,所述Step2.1的具体步骤为:
Step2.1.1、在孪生网络模型的基础上引入XLM-R预训练模型对文本进行编码,每
一段文本序列分别利用一个768维的向量进行表示;XLM-R的全称是XLM-RoBERTa,该模型的
训练方法于XLM预训练模型基本一致,并且思想借鉴了RoBERTa预训练模型,将两种预训练
模型的优势进行结合,利用100个语种上的2.5TB语料进行训练,在多项跨语言理解基准任
务上取得了最优;对于给定的中文文本序列,其中n为中文文本序列长度,
将其输入XLM-R预训练模型进行编码,得到一个稠密的隐向量表示u,计算如下:;其
中,表示XLM-R模型编码层;
Step2.1.2、对于给定的泰语或老挝语文本序列,其中b为泰语或
老挝语文本序列长度,其处理过程与中文文本序列一致,利用XLM-R预训练模型对其进行编
码,计算如下:;
Step2.1.3、为了对两段文本的语义表示进行特征匹配,计算其语义相似度,使用
了多层感知机;将u、v以及二者的差u-v和按位相乘进行拼接,并将拼接结果输入一个
线性变换层,最后利用tanh激活函数提高模型表征能力,以期更好地捕获文本隐向量表示
中的匹配关系,文本隐向量计算过程如下:;
Step2.1.4、为了对包含文本匹配关系的文本隐向量进行分类,将其匹配关系表示
输入一个线性变换层,对齐进行特征压缩,最后通过一个Sigmoid层对文本匹配关系进行打
分,计算过程如下:;
Step2.1.5、使用双语交叉熵损失对基础的孪生网络模型进行优化训练,其损失如
下:;
其中,a为文本隐向量h对应的输入文本标签,u为中文编码后的隐向量,v为老挝语
或泰语编码后的隐向量,h为文本隐向量,s为中文与泰语或老挝语的相似度得分,、为
可训练参数矩阵。
进一步地,所述Step2.2的具体步骤为:
Step2.2.1、利用各个句子同批次的其他句子构造负样本,核心思想是将中文句子
和同批次的其他任意泰语和老挝语句子配对作为负样本,并且在训练过程中使得该句对的
语义差距尽可能大;具体的,随机从所有的训练数据中随机采样n个句对作为一个批次的训
练数据,表示为,对于其中的任意一个训练句对样本的中文句子,将同批次的其他N-1个泰语或老挝语句子和进行配对,得到句子对作为实验的负样本;利用表示负样本句子对的语义相似度,上述方式构造的
负样本训练的对比损失计算如下:
;
Step2.2.2、使用多语言同义词替换的方法构造一部分的新的正样本训练数据;首
先,步骤Step1获取的泰语-老挝语的双语词典,作为后续多语言同义词替换的数据基础;对
于任意一个训练句对样本中的泰语或老挝语句子,首先对其进行分词,然后对每个
词在泰语-老挝语的双语词典中进行检索,如果能找到对应的同义词,就在原句子中进行替
换,得到新的泰语或老挝语句子,并和原句对中的中文句子构成一个新的正样本训练
数据,然后通过第一种方法对该部分数据同时构造一部分负样本,同时,在多语
言同义词替换构造的伪数据中也使用了同批次数据构造更多的负样本数据,上述方式构造
的正样本数据训练时的损失计算如下:
;
其中和的计算方式可参考和的计算方式,其区别只在于训练数据不同,
需要将更换为;表示在原始数据下计算的对比损失,为在原始数据下使用双语交
叉熵损失对基础的孪生网络模型进行优化训练的损失,表示在词替换后数据下计算的对
比损失,为在词替换后数据下使用双语交叉熵损失对基础的孪生网络模型进行优化训练
的损失;
Step2.2.3、因为将孪生网络和对比学习方法进行了融合,并针对对比学习方法提出了同批次数据构造样例和多语言同义词替换方法构造样例这两种样例数据构造方法。该模型训练时在交叉熵损失的基础上引入了对比损失,因此,基于对比学习的汉语-老挝语、泰语平行句对抽取模型训练时的总损失函数计算如下:
。
进一步地,所述Step3的具体步骤为:
Step3.1、输入数据处理:将输入的中文文本以及泰语或老挝语文本分别根据对应的词表进行分子词操作,并分别将文本对应的子词序列转化为id,以便对其进行向量表示;
Step3.2、搭建平行句对抽取服务:搭建平行句对抽取服务端,将训练出的“.bin”格式模型部署到服务器端上;搭建Web端汉语-老挝语、泰语平行句对抽取系统,实现通过Web多用户并发请求的功能;
Step3.3、平行句对抽取业务实现:将待进行平行句对判定的汉语-老挝语、泰语双语文本输入Web端并通过API传输到服务端,调用平行句对抽取模型;具体地,将汉语数据输入汉语编码器中得到汉语句子编码表征,将老挝语或泰语数据输入老挝语、泰语共享编码器得到老挝语、泰语句子编码表征,然后对两个句子编码表征进行语义相似度计算,将相似度高于判定阈值的汉语-泰语、汉语-老挝语句对判定为平行句对。
第二方面,本发明还提供基于对比学习的汉-老、泰平行句对抽取装置,包括用于执行上述第一方面所述的方法的模块。
本发明的有益效果是:
1、本发明为了获得更好的句子级表征,基于孪生网络思想,利用XLM-R预训练模型对句子进行表征,并在训练过程中微调预训练模型;
2、本发明在平行句对抽取模型中引入对比学习方法增强模型对相似不平行句对的判别能力,一方面利用同批次样本构建负样例,另一方面利用泰语和老挝语的句法相似性通过词典替换的方式构建正负样例,拉近平行句对在语义空间中距离的同时使不平行句对在语义空间中的距离更远;
3、从汉语-泰语及汉语-老挝语可比语料中抽取平行句对,本发明有效提升了汉-泰和汉-老平行句对抽取效果。
附图说明
图1为本发明中基于XLM-R的孪生网络架构图;
图2为本发明中基于对比学习的网络架构图;
图3为本发明中基于对比学习的汉-老、泰平行句对抽取方法整体流程图;
具体实施方式
下面结合附图,对本发明的实施例进行描述。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例的执行主体可以为各种类型的终端,终端例如可以是计算机、智能手机、平板电脑、可穿戴设备、个人数字助理(英文:Personal DigitalAssistant,缩写:PDA)、移动互联网设备(英文:Mobile Internet Device,缩写:MID)等可进行文本处理的终端,本发明对此不作任何限制。
如图3所示,是本发明中基于对比学习的汉-老、泰平行句对抽取方法整体流程图,第一方面,本发明提供的基于对比学习的汉-老、泰平行句对抽取方法的具体步骤如下:
Step1、进行文本数据预处理:泰语和老挝语都属于低资源语言,网络上开源的汉语-泰语和汉语-老挝语平行数据集稀缺;本发明首先从OPUS和亚洲语言树库上获取了汉语-泰语和汉语-老挝语平行语料,并使用爬虫技术从双语网站上获取汉语-泰语,汉语-老挝语可比语料,以此为基准进行数据集构建,构建方法为融合句法特点的汉语-老挝语、汉语-泰语训练数据集构建方法及基于泰语、老挝语发音相似性引导的泰语-老挝语双语词典构建方法;
Step2、训练基于对比学习的汉语-老挝语、泰语平行句对抽取模型:针对现有的平行句对抽取方法应用到汉语-泰语、汉语-老挝语上时,泰语和老挝语训练数据稀缺导致模型对泰语和老挝语的表征能力弱,使得抽取效果不好的问题,训练基于对比学习的汉语-老挝语、泰语平行句对抽取模型。首先,通过XLM-R预训练模型对文本进行编码,获得更丰富的语义表征,并引入多语言联合训练的方式缓解汉语-老挝语、泰语抽取模型训练数据稀缺问题,其次,引入对比学习方法训练模型,增强模型对泰语和老挝语的表征能力;
Step3、进行汉语-老挝语、泰语平行句对抽取:将训练好的汉语-老挝语、泰语平行句对抽取模型部署为平行句对抽取系统,从汉语-老挝语和汉语-泰语可比语料中抽取平行句对。
进一步地,所述Step1的具体步骤为:
Step1.1、首先从OPUS和亚洲语言树库上获取了汉语-泰语和汉语-老挝语平行语料,构建汉语、老挝语、泰语语法解析工具,并使用爬虫技术从泰语-汉语和老挝语-汉语双语网站获取汉语-泰语,汉语-老挝语可比语料;融合句法特点的汉语-老挝语、汉语-泰语训练数据集构建方法包括:通过正则匹配、网页标签清除,长度筛查方式对可比语料进行清洗,然后使用构建的语法解析工具进行句法分析,选取句法结构相似的汉语-泰语,汉语-老挝语语料为伪平行语料,结合人工筛查,从中构建了汉语-老挝语、泰语平行句对抽取模型训练数据集,并划分训练集、验证集和测试集;构建的模型训练数据集包含20万汉-泰平行数据以及10万汉-老平行数据;本发明选取汉-泰和汉-老数据各2000条作为验证集,各取2000条作为测试集,剩余数据作为训练集;
Step1.2、构建泰语-老挝语双语词典,构建方法为基于泰语、老挝语发音相似性引导的泰语-老挝语双语词典构建方法,包括:利用泰语和老挝语的互译词具有发音相似性的特点,使用泰语、老挝语转音标工具构建泰语词、老挝语词-音标映射,通过词语发音相似度匹配,即音标的编辑距离匹配结合人工标注的方式构建泰语-老挝语双语词典。
进一步地,所述Step2的具体步骤为:
Step2.1、在孪生网络模型的基础上引入XLM-R预训练语言模型对文本进行编码,提高模型的跨语言编码表征能力;
Step2.2、为了进一步拉近相似文本在语义空间中的距离,同时拉开不相似文本的
语义差距,在基于XLM-R的孪生网络模型基础上引入对比学习方法训练模型,对比学习的关
键在于正负样例的构建,对于给定的汉语-泰语或老挝语的训练句对样本,采用了两
种方式从现有训练数据中构建样例,第一种是利用各个句子和同批次的其他句子配对构建
负样本,第二种是利用泰语和老挝语的句法相似性根据多语言同义词替换的方式构
建一部分伪数据作为正样本,并通过第一种方法对该部分数据同样构造一部分负样
本;
其中,表示第i个中文句子,表示第i个泰语或老挝语句子,表示配对后的第i
个泰语或老挝语句子,表示第i个经过词替换处理的新的泰语或老挝语句子,表示配对
后第i个经过词替换处理的新的泰语或老挝语句子。
进一步地,所述Step2.1的具体步骤为:
Step2.1.1、为了更有效地对文本进行语义表示,在孪生网络模型的基础上引入
XLM-R预训练模型对文本进行编码,每一段文本序列分别利用一个768维的向量进行表示;
XLM-R的全称是XLM-RoBERTa,该模型的训练方法于XLM预训练模型基本一致,并且思想借鉴
了RoBERTa预训练模型,将两种预训练模型的优势进行结合,利用100个语种上的2.5TB语料
进行训练,在多项跨语言理解基准任务上取得了最优;对于给定的中文文本序列,其中n为中文文本序列长度,将其输入XLM-R预训练模型进行编码,得到一
个稠密的隐向量表示u,计算如下:;其中,表示XLM-R模型编码层;
Step2.1.2、对于给定的泰语或老挝语文本序列,其中b为泰语或
老挝语文本序列长度,其处理过程与中文文本序列一致,利用XLM-R预训练模型对其进行编
码,计算如下:;
Step2.1.3、为了对两段文本的语义表示进行特征匹配,计算其语义相似度,使用
了多层感知机;将u、v以及二者的差u-v和按位相乘进行拼接,并将拼接结果输入一个
线性变换层,最后利用tanh激活函数提高模型表征能力,以期更好地捕获文本隐向量表示
中的匹配关系,文本隐向量计算过程如下:;
Step2.1.4、为了对包含文本匹配关系的文本隐向量进行分类,将其匹配关系表示
输入一个线性变换层,对齐进行特征压缩,最后通过一个Sigmoid层对文本匹配关系进行打
分,计算过程如下:;
Step2.1.5、使用双语交叉熵损失对基础的孪生网络模型进行优化训练,其损失如
下:;
其中,a为文本隐向量h对应的输入文本标签,u为中文编码后的隐向量,v为老挝语
或泰语编码后的隐向量,h为文本隐向量,s为中文与泰语或老挝语的相似度得分,、为
可训练参数矩阵。
进一步地,所述Step2.2的具体步骤为:
Step2.2.1、利用各个句子同批次的其他句子构造负样本,核心思想是将中文句子
和同批次的其他任意泰语和老挝语句子配对作为负样本,并且在训练过程中使得该句对的
语义差距尽可能大;具体的,随机从所有的训练数据中随机采样n个句对作为一个批次的训
练数据,表示为,对于其中的任意一个训练句对样本的中文句子,将同批次的其他N-1个泰语或老挝语句子和进行配对,得到句子对作为实验的负样本;利用表示负样本句子对的语义相似度,上述方式构造的
负样本训练的对比损失计算如下:
;
Step2.2.2、上述利用同批次数据构造样例的方法只能构造负样例,不能从现有训
练数据中构造出一些新的正样例。为此,考虑到泰语和老挝语在句法层面上有较高的相似
性,本发明使用多语言词替换的方法构造一部分的新的正样例训练数据。使用多语言同义
词替换的方法构造一部分的新的正样本训练数据;首先,步骤Step1获取的31960个泰语-老
挝语的双语词典,作为后续多语言同义词替换的数据基础;对于任意一个训练句对样本中的泰语或老挝语句子,首先对其进行分词,然后对每个词在泰语-老挝语的双语
词典中进行检索,如果能找到对应的同义词,就在原句子中进行替换,得到新的泰语或老挝
语句子,并和原句对中的中文句子构成一个新的正样本训练数据,然后通过第一
种方法对该部分数据同时构造一部分负样本,由于泰语和老挝语在句法上有较高的
相似性,多语言词替换的方式并不会对泰语和老挝语的词汇在句子中的位置信息造成干
扰,从而保证模型在对新构造的伪数据进行编码时获得正确的语义信息。同时,为了构造更
多的样例数据,提升模型训练效果,本发明在多语言同义词替换构造的伪数据中也使用了
同批次数据构造更多的负样本数据,上述方式构造的正样本数据训练时的损失计算如下:
;
其中和的计算方式可参考和的计算方式,其区别只在于训练数据不同,
需要将更换为;表示在原始数据下计算的对比损失,为在原始数据下使用双语交
叉熵损失对基础的孪生网络模型进行优化训练的损失,表示在词替换后数据下计算的对
比损失,为在词替换后数据下使用双语交叉熵损失对基础的孪生网络模型进行优化训练
的损失;
Step2.2.3、因为将孪生网络和对比学习方法进行了融合,并针对对比学习方法提出了同批次数据构造样例和多语言同义词替换方法构造样例这两种样例数据构造方法。该模型训练时在交叉熵损失的基础上引入了对比损失,因此,基于对比学习的汉语-老挝语、泰语平行句对抽取模型训练时的总损失函数计算如下:
。
进一步地,所述Step3的具体步骤为:
Step3.1、输入数据处理:将输入的中文文本以及泰语或老挝语文本分别根据对应的词表进行分子词操作,并分别将文本对应的子词序列转化为id,以便对其进行向量表示;
Step3.2、搭建平行句对抽取服务:搭建平行句对抽取服务端,将训练出的“.bin”格式模型部署到服务器端上;搭建Web端汉语-老挝语、泰语平行句对抽取系统,实现通过Web多用户并发请求的功能;
Step3.3、平行句对抽取业务实现:将待进行平行句对判定的汉语-老挝语、泰语双语文本输入Web端并通过API传输到服务端,调用平行句对抽取模型;具体地,将汉语数据输入汉语编码器中得到汉语句子编码表征,将老挝语或泰语数据输入老挝语、泰语共享编码器得到老挝语、泰语句子编码表征,然后对两个句子编码表征进行语义相似度计算,将相似度高于判定阈值的汉语-泰语、汉语-老挝语句对判定为平行句对。
下面为本发明装置实施例,本发明装置实施例用于执行本发明方法第一实施例实现的方法,为了便于说明,仅示出了本发明实施例相关的部分,具体未揭示的部分,请参照本发明第一实施例。
本发明实施例提供基于对比学习的汉-老、泰平行句对抽取装置,该装置包括:
预处理模块:用于进行文本数据预处理,具体用于首先从OPUS和亚洲语言树库上获取了汉语-泰语和汉语-老挝语平行语料,并使用爬虫技术从双语网站上获取汉语-泰语,汉语-老挝语可比语料,以此为基准进行数据集构建,构建方法为融合句法特点的汉语-老挝语、汉语-泰语训练数据集构建方法及基于泰语、老挝语发音相似性引导的泰语-老挝语双语词典构建方法;
训练模块:用于训练基于对比学习的汉语-老挝语、泰语平行句对抽取模型,具体的,首先,用于通过XLM-R预训练模型对文本进行编码,获得更丰富的语义表征,并引入多语言联合训练的方式缓解汉语-老挝语、泰语抽取模型训练数据稀缺问题,其次,引入对比学习方法训练模型,增强模型对泰语和老挝语的表征能力;
抽取模块:用于进行汉语-老挝语、泰语平行句对抽取,具体的用于将训练好的汉语-老挝语、泰语平行句对抽取模型部署为平行句对抽取系统,从汉语-老挝语和汉语-泰语可比语料中抽取平行句对。
为了验证本发明提出的基于对比学习的汉-老、泰平行句对抽取方法的效果,设计了对比实验和消融实验。
对比实验的实验结果如表1所示,相比传统的机器学习方法SVM和LR,本发明提出的基于对比学习的平行句对抽取方法在汉语泰语平行数据和汉语老语平行数据两个测试集的抽取效果上都取得了飞跃式的提升,这说明基于的对比学习的方法可以更好地从现有训练数据中学习语言的语义特征,并扩展到其他的数据集;而传统的基于机器学习的方法依赖于训练数据中的特征,泛化能力较差,泰语和老挝语都属于低资源语言,无法为模型训练提供充足的数据,从而导致模型性能不佳。同时,本发明发现汉泰数据集上的实验效果远超汉老数据集上的实验效果,这个主要是受到数据规模的影响,汉泰的数据规模相比于汉老的数据规模较大。
相比现有的基于深度学习的平行句对抽取方法,本发明提出的基于对比学习的平行句对抽取方法在汉语泰语平行数据和汉语老语平行数据两个测试集的抽取效果上都达到了最优值。相比Bi-LSTM模型,本发明方法引入了预训练模型,并对其微调,实验结果表明了该方法的有效性。相比Bert预训练模型,XLM-R预训练模型拥有更强大的语义表征能力,能使模型在编码时获得更准确的跨语言表征。将Bi-LSTM模型和Bert预训练模型进行融合可以进一步提升模型性能,但在相同训练数据下模型的抽取效果相比本发明提出方法仍有差距。
表1 与其他模型对比实验的实验结果
通过在本发明提出方法的基础上使用不同的数据集进行训练,本发明观察到汉泰和汉老数据联合训练的模型效果远超汉泰和汉老单独训练的模型效果,在汉泰和汉老测试集上的F1值分别达到了91.80%和96.27%,这表明汉泰和汉老模型中的参数有较高的相似性,可通过模型参数的共享实现数据增强及跨语言知识迁移,提升模型性能。
为了探究在平行句对抽取模型中引入对比学习方法及设置的正负样例构造方法的有效性,本发明设置了消融实验,分别在提出方法的基础上消除两种样例构造方法并进行实验。实验结果如表2、表3所示;表2是各模型在汉泰测试集上的实验结果,表3是各模型在汉老测试集上的实验结果,采用精确率(P)、召回率(R)和F1-Score(F1)值衡量实验结果。
表2 测试集为泰语时消融实验结果
表3 测试集为老挝语时消融实验结果
根据实验结果可以看出,对比学习方法可以有效提升平行句对抽取模型效果,且利用同批次构造样本和利用多语言词替换方式构造样本都能有效提升模型效果,当一起使用两种样本构造方法时,模型性能达到最优。同时,本发明进一步发现相比于利用同批次构造样本的方法,利用多语言词替换方式构造样本的方法对模型性能提升贡献更大,这主要是由于泰语和老挝语在句法上有较高的相似性,导致构造的伪数据质量较高,且有效地拉近了泰语和老挝语语义空间距离。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (4)
1.基于对比学习的汉-老、泰平行句对抽取方法,其特征在于:所述方法的具体步骤如下:
Step1、进行文本数据预处理:首先从OPUS和亚洲语言树库上获取了汉语-泰语和汉语-老挝语平行语料,并使用爬虫技术从双语网站上获取汉语-泰语,汉语-老挝语可比语料,以此为基准进行数据集构建,构建方法为融合句法特点的汉语-老挝语、汉语-泰语训练数据集构建方法及基于泰语、老挝语发音相似性引导的泰语-老挝语双语词典构建方法;
Step2、训练基于对比学习的汉语-老挝语、泰语平行句对抽取模型:首先,通过XLM-R预训练模型对文本进行编码,获得更丰富的语义表征,并引入多语言联合训练的方式缓解汉语-老挝语、泰语抽取模型训练数据稀缺问题,其次,引入对比学习方法训练模型,增强模型对泰语和老挝语的表征能力;
Step3、进行汉语-老挝语、泰语平行句对抽取:将训练好的汉语-老挝语、泰语平行句对抽取模型部署为平行句对抽取系统,从汉语-老挝语和汉语-泰语可比语料中抽取平行句对;
所述Step1的具体步骤为:
Step1.1、首先从OPUS和亚洲语言树库上获取了汉语-泰语和汉语-老挝语平行语料,构建汉语、老挝语、泰语语法解析工具,并使用爬虫技术从泰语-汉语和老挝语-汉语双语网站获取汉语-泰语,汉语-老挝语可比语料;融合句法特点的汉语-老挝语、汉语-泰语训练数据集构建方法包括:通过正则匹配、网页标签清除,长度筛查方式对可比语料进行清洗,然后使用构建的语法解析工具进行句法分析,选取句法结构相似的汉语-泰语,汉语-老挝语语料为伪平行语料,结合人工筛查,从中构建了汉语-老挝语、泰语平行句对抽取模型训练数据集,并划分训练集、验证集和测试集;
Step1.2、构建泰语-老挝语双语词典,构建方法为基于泰语、老挝语发音相似性引导的泰语-老挝语双语词典构建方法,包括:利用泰语和老挝语的互译词具有发音相似性的特点,使用泰语、老挝语转音标工具构建泰语词、老挝语词-音标映射,通过词语发音相似度匹配,即音标的编辑距离匹配结合人工标注的方式构建泰语-老挝语双语词典;
所述Step2的具体步骤为:
Step2.1、在孪生网络模型的基础上引入XLM-R预训练语言模型对文本进行编码,提高模型的跨语言编码表征能力;
Step2.2、在基于XLM-R的孪生网络模型基础上引入对比学习方法训练模型,对比学习的关键在于正负样例的构建,对于给定的汉语-泰语或老挝语的训练句对样本,采用了两种方式从现有训练数据中构建样例,第一种是利用各个句子和同批次的其他句子配对构建负样本/>,第二种是利用泰语和老挝语的句法相似性根据多语言同义词替换的方式构建一部分伪数据作为正样本/>,并通过第一种方法对正样本同样构造一部分负样本/>;
其中,表示第i个中文句子,/>表示第i个泰语或老挝语句子,/>表示配对后的第i个泰语或老挝语句子,/>表示第i个经过词替换处理的新的泰语或老挝语句子,/>表示配对后第i个经过词替换处理的新的泰语或老挝语句子;
所述Step2.1的具体步骤为:
Step2.1.1、在孪生网络模型的基础上引入XLM-R预训练模型对文本进行编码,每一段文本序列分别利用一个768维的向量进行表示;对于给定的中文文本序列,其中n为中文文本序列长度,将其输入XLM-R预训练模型进行编码,得到一个稠密的隐向量表示u,计算如下:/>;其中,/>表示XLM-R模型编码层;
Step2.1.2、对于给定的泰语或老挝语文本序列,其中b为泰语或老挝语文本序列长度,其处理过程与中文文本序列一致,利用XLM-R预训练模型对其进行编码,计算如下:/>;
Step2.1.3、使用了多层感知机,将u、v以及二者的差u-v和按位相乘进行拼接,并将拼接结果输入一个线性变换层,最后利用tanh激活函数提高模型表征能力,以期更好地捕获文本隐向量表示中的匹配关系,文本隐向量计算过程如下:;
Step2.1.4、将匹配关系表示输入一个线性变换层,对齐进行特征压缩,最后通过一个Sigmoid层对文本匹配关系进行打分,计算过程如下:;
Step2.1.5、使用双语交叉熵损失对基础的孪生网络模型进行优化训练,其损失如下:;
其中,a为文本隐向量h对应的输入文本标签,u为中文编码后的隐向量,v为老挝语或泰语编码后的隐向量,h为文本隐向量,s为中文与泰语或老挝语的相似度得分,、/>为可训练参数矩阵。
2.根据权利要求1所述的基于对比学习的汉-老、泰平行句对抽取方法,其特征在于:所述Step2.2的具体步骤为:
Step2.2.1、利用各个句子同批次的其他句子构造负样本,核心思想是将中文句子和同批次的其他任意泰语和老挝语句子配对作为负样本,并且在训练过程中使得该句对的语义差距大;具体的,随机从所有的训练数据中随机采样n个句对作为一个批次的训练数据,表示为,对于其中的任意一个训练句对样本/>的中文句子/>,将同批次的其他N-1个泰语或老挝语句子和/>进行配对,得到句子对/>作为实验的负样本;利用/>表示负样本句子对/>的语义相似度,上述方式构造的负样本训练的对比损失计算如下:
;
Step2.2.2、使用多语言同义词替换的方法构造一部分的新的正样本训练数据;首先,步骤Step1获取的泰语-老挝语的双语词典,作为后续多语言同义词替换的数据基础;对于任意一个训练句对样本中的泰语或老挝语句子/>,首先对其进行分词,然后对每个词在泰语-老挝语的双语词典中进行检索,如果能找到对应的同义词,就在原句子中进行替换,得到新的泰语或老挝语句子/>,并和原句对中的中文句子/>构成一个新的正样本/>,然后通过第一种方法对正样本同时构造一部分负样本/>,同时,在多语言同义词替换构造的伪数据中也使用了同批次数据构造更多的负样本数据,上述方式构造的正样本数据训练时的损失计算如下:
;
其中和/>的计算方式可参考/>和/>的计算方式,其区别只在于训练数据不同,需要将/>更换为/>;/>表示在原始数据下计算的对比损失,/>为在原始数据下使用双语交叉熵损失对基础的孪生网络模型进行优化训练的损失,/>表示在词替换后数据下计算的对比损失,/>为在词替换后数据下使用双语交叉熵损失对基础的孪生网络模型进行优化训练的损失;
Step2.2.3、模型训练时在交叉熵损失的基础上引入了对比损失,因此,基于对比学习的汉语-老挝语、泰语平行句对抽取模型训练时的总损失函数计算如下:
。
3.根据权利要求1所述的基于对比学习的汉-老、泰平行句对抽取方法,其特征在于:所述Step3的具体步骤为:
Step3.1、输入数据处理:将输入的中文文本以及泰语或老挝语文本分别根据对应的词表进行分子词操作,并分别将文本对应的子词序列转化为id,以便对其进行向量表示;
Step3.2、搭建平行句对抽取服务:搭建平行句对抽取服务端,将训练出的“.bin”格式模型部署到服务器端上;搭建Web端汉语-老挝语、泰语平行句对抽取系统,实现通过Web多用户并发请求的功能;
Step3.3、平行句对抽取业务实现:将待进行平行句对判定的汉语-老挝语、泰语双语文本输入Web端并通过API传输到服务端,调用平行句对抽取模型;具体地,将汉语数据输入汉语编码器中得到汉语句子编码表征,将老挝语或泰语数据输入老挝语、泰语共享编码器得到老挝语、泰语句子编码表征,然后对两个句子编码表征进行语义相似度计算,将相似度高于判定阈值的汉语-泰语、汉语-老挝语句对判定为平行句对。
4.基于对比学习的汉-老、泰平行句对抽取装置,其特征在于,包括用于执行如权利要求1-3任一权利要求所述的方法的模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311113316.7A CN116822495B (zh) | 2023-08-31 | 2023-08-31 | 基于对比学习的汉-老、泰平行句对抽取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311113316.7A CN116822495B (zh) | 2023-08-31 | 2023-08-31 | 基于对比学习的汉-老、泰平行句对抽取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116822495A CN116822495A (zh) | 2023-09-29 |
CN116822495B true CN116822495B (zh) | 2023-11-03 |
Family
ID=88113107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311113316.7A Active CN116822495B (zh) | 2023-08-31 | 2023-08-31 | 基于对比学习的汉-老、泰平行句对抽取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116822495B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110717341A (zh) * | 2019-09-11 | 2020-01-21 | 昆明理工大学 | 一种以泰语为枢轴的老-汉双语语料库构建方法及装置 |
WO2021164199A1 (zh) * | 2020-02-20 | 2021-08-26 | 齐鲁工业大学 | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 |
CN114970721A (zh) * | 2022-05-26 | 2022-08-30 | 北京有竹居网络技术有限公司 | 多语言多模态预训练模型的训练方法、装置及电子设备 |
CN115270752A (zh) * | 2022-07-27 | 2022-11-01 | 北京邮电大学 | 一种基于多层次对比学习的模板句评估方法 |
CN115329785A (zh) * | 2022-10-15 | 2022-11-11 | 小语智能信息科技(云南)有限公司 | 融入音素特征的英-泰-老多语言神经机器翻译方法及装置 |
CN115470393A (zh) * | 2022-08-25 | 2022-12-13 | 昆明理工大学 | 面向汉越跨语言事件检索的事件预训练方法 |
CN115599888A (zh) * | 2022-10-31 | 2023-01-13 | 昆明理工大学(Cn) | 融合领域知识图谱的汉越跨境民族文本检索方法及装置 |
WO2023086981A1 (en) * | 2021-11-15 | 2023-05-19 | Salesforce, Inc. | Systems and methods for cross-lingual transfer in natural language processing |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230153542A1 (en) * | 2021-11-15 | 2023-05-18 | Salesforce.Com, Inc. | Systems and methods for cross-lingual transfer in natural language processing |
-
2023
- 2023-08-31 CN CN202311113316.7A patent/CN116822495B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110717341A (zh) * | 2019-09-11 | 2020-01-21 | 昆明理工大学 | 一种以泰语为枢轴的老-汉双语语料库构建方法及装置 |
WO2021164199A1 (zh) * | 2020-02-20 | 2021-08-26 | 齐鲁工业大学 | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 |
WO2023086981A1 (en) * | 2021-11-15 | 2023-05-19 | Salesforce, Inc. | Systems and methods for cross-lingual transfer in natural language processing |
CN114970721A (zh) * | 2022-05-26 | 2022-08-30 | 北京有竹居网络技术有限公司 | 多语言多模态预训练模型的训练方法、装置及电子设备 |
CN115270752A (zh) * | 2022-07-27 | 2022-11-01 | 北京邮电大学 | 一种基于多层次对比学习的模板句评估方法 |
CN115470393A (zh) * | 2022-08-25 | 2022-12-13 | 昆明理工大学 | 面向汉越跨语言事件检索的事件预训练方法 |
CN115329785A (zh) * | 2022-10-15 | 2022-11-11 | 小语智能信息科技(云南)有限公司 | 融入音素特征的英-泰-老多语言神经机器翻译方法及装置 |
CN115599888A (zh) * | 2022-10-31 | 2023-01-13 | 昆明理工大学(Cn) | 融合领域知识图谱的汉越跨境民族文本检索方法及装置 |
Non-Patent Citations (4)
Title |
---|
Cross-lingual Sentence Embedding for Low-resource Chinese-Vietnamese Based on Contrastive Learning;Yuxin Huang 等;《ACM Transactions on Asian and Low-Resource Language Information Processing》;第22卷(第06期);1-18 * |
基于多语言联合训练的汉英缅神经机器翻译方法;毛存礼 等;《清华大学学报(自然科学版)》;第61卷(第09期);927-926 * |
基于对比学习方法的小样本学习;付海涛 等;《吉林大学学报(理学版)》;第61卷(第01期);111-116 * |
基于预训练模型的机器翻译评价指标研究;杨小兰;《中国优秀硕士学位论文全文数据库-信息科技辑》(第07期);I138-346 * |
Also Published As
Publication number | Publication date |
---|---|
CN116822495A (zh) | 2023-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108959242B (zh) | 一种基于中文字符词性特征的目标实体识别方法及装置 | |
CN111209401A (zh) | 网络舆情文本信息情感极性分类处理系统及方法 | |
WO2009035863A2 (en) | Mining bilingual dictionaries from monolingual web pages | |
CN112765345A (zh) | 一种融合预训练模型的文本摘要自动生成方法及系统 | |
CN111160023B (zh) | 一种基于多路召回的医疗文本命名实体识别方法 | |
CN110717341B (zh) | 一种以泰语为枢轴的老-汉双语语料库构建方法及装置 | |
CN114757182A (zh) | 一种改进训练方式的bert短文本情感分析方法 | |
CN111967267B (zh) | 一种基于XLNet的新闻文本地域提取的方法及系统 | |
CN112016320A (zh) | 基于数据增强的英文标点符号添加方法和系统及设备 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN115587590A (zh) | 训练语料集构建方法、翻译模型训练方法、翻译方法 | |
CN115510863A (zh) | 一种面向问句匹配任务的数据增强方法 | |
CN112765977B (zh) | 一种基于跨语言数据增强的分词方法及装置 | |
CN112257460B (zh) | 基于枢轴的汉越联合训练神经机器翻译方法 | |
CN101667099A (zh) | 一种连笔键盘文字输入的方法和设备 | |
CN110929022A (zh) | 一种文本摘要生成方法及系统 | |
CN113204978A (zh) | 一种机器翻译增强训练方法及系统 | |
CN112749566B (zh) | 一种面向英文写作辅助的语义匹配方法及装置 | |
CN116822495B (zh) | 基于对比学习的汉-老、泰平行句对抽取方法及装置 | |
CN112989839A (zh) | 一种基于关键词特征嵌入语言模型的意图识别方法及系统 | |
CN114970537B (zh) | 基于多层标注策略的跨境民族文化实体关系抽取方法及装置 | |
Ma et al. | Joint pre-trained Chinese named entity recognition based on bi-directional language model | |
Suleiman et al. | Recurrent neural network techniques: Emphasis on use in neural machine translation | |
CN112966501B (zh) | 一种新词发现方法、系统、终端及介质 | |
CN114298032A (zh) | 文本标点检测方法、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |