CN110717341A - 一种以泰语为枢轴的老-汉双语语料库构建方法及装置 - Google Patents

一种以泰语为枢轴的老-汉双语语料库构建方法及装置 Download PDF

Info

Publication number
CN110717341A
CN110717341A CN201910856645.8A CN201910856645A CN110717341A CN 110717341 A CN110717341 A CN 110717341A CN 201910856645 A CN201910856645 A CN 201910856645A CN 110717341 A CN110717341 A CN 110717341A
Authority
CN
China
Prior art keywords
thai
laos
sentence
parallel
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910856645.8A
Other languages
English (en)
Other versions
CN110717341B (zh
Inventor
毛存礼
高旭
余正涛
高盛祥
王振晗
聂男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201910856645.8A priority Critical patent/CN110717341B/zh
Publication of CN110717341A publication Critical patent/CN110717341A/zh
Application granted granted Critical
Publication of CN110717341B publication Critical patent/CN110717341B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及以泰语为枢轴的老‑汉双语语料库构建方法及装置,属自然语言处理领域。本发明先对汉语‑泰语平行语料数据进行泰语分词处理;构建老挝语‑泰语双语词典,并利用其将泰语句子逐词翻译成老挝语句子序列,得到候选的老挝语‑泰语平行句对;构建基于双向LSTM的老挝语‑泰语平行句对分类模型,对候选的老挝语‑泰语平行句对进行分类,获取老挝语‑泰语双语平行句对;以泰语为枢轴语言对老挝语和汉语进行匹配,构建老挝语‑汉语双语平行语料库。并根据上述步骤功能模块化制成以泰语为枢轴语言的老‑汉双语平行语料库构建装置,本发明解决了老挝语‑汉语语料稀缺的问题,对老‑汉双语语料库的构建具有一定的理论意义和实际应用价值。

Description

一种以泰语为枢轴的老-汉双语语料库构建方法及装置
技术领域
本发明涉及一种以泰语为枢轴的老-汉双语语料库构建方法及装置,属于自然语言处理技术领域。
背景技术
语料库建设是自然语言处理研究工作的前提,老-汉双语语料库是开展汉-老机器翻译及跨语言检索的重要数据资源,而老挝语是东南亚语言中资源较为稀缺的语言,老-汉双语平行资源较为稀缺,直接从互联网上获取老-汉双语平行资源存在较大困难。
老挝语和泰语都属于汉藏语系壮侗语族壮傣语支,基本词汇几乎相同或相似,句法结构上也有很大的相似性,而汉-泰平行语料又相对较容易获取,所以可以利用老挝语和泰语的相似性,获取老-泰平行句对,以泰语为枢轴的基础上构建老-汉双语平行语料。
发明内容
本发明提供了一种以泰语为枢轴的老-汉双语语料库构建方法及装置,以用于构建老挝语-汉语双语平行语料库。
本发明的技术方案是:一种以泰语为枢轴的老-汉双语语料库构建方法,包括如下步骤:
Step1、从现有的汉语-泰语平行语料数据中抽取泰语句子并进行泰语分词处理;
Step2、构建老挝语-泰语双语词典,并利用老挝语-泰语双语词典将泰语句子逐词翻译成老挝语句子序列,得到候选的老挝语-泰语平行句对;
Step3、构建基于双向LSTM的老挝语-泰语平行句对分类模型,对候选的老挝语-泰语平行句对进行分类,把互译的老挝语-泰语平行句子抽取出来,从而获取老挝语-泰语双语平行句对;
Step4、将获取得到的老挝语-泰语双语平行句对语料与已有的汉语-泰语平行语料以泰语为枢轴语言对老挝语和汉语进行匹配,构建老挝语-汉语双语平行语料库。
进一步地,所述步骤Step1的具体步骤为:
Step1.1、从已有的汉语-泰语双语平行语料库中选取20-50个字符的泰语句子;
Step1.2、对选取的泰语句子进行分词处理,分词工具使用昆明理工大学研发的东南亚小语种语言信息处理平台,网址为http://222.197.219.24:8099/。
本发明考虑到泰语采取连书形式,没有分词,无法做基于词的翻译以及使用到模型中。因此,要通过泰语分词工具进行分词,得到分好词的泰语句子。
此优选方案设计是本发明的重要组成部分,主要为本发明提供语料及数据预处理过程,为后续的词典翻译及模型使用提供语料基础。
进一步地,所述步骤Step2的具体步骤:
Step2.1、老挝语-泰语双语词典的构建:主要是以英语作为中间语言,在老挝语-英语的词典和泰语-英语词典的基础上,利用英语单词来对齐老挝语和泰语单词,以此构建老挝语-泰语双语词典;
Step2.2、由于老挝语-泰语极其相似,将已获取的汉语-泰语双语平行句对中的泰语句子利用老挝语-泰语双语词典进行逐词翻译,由于存在一词多义的情况,在通过词典翻译时,就可能会生成多个语义不同的老挝语句子,从而得到候选的老挝语-泰语平行句对,其中候选的老挝语-泰语平行句对中,是一句泰语对应多句老挝语的多组句子,它不全是互译的。
此优选设计方案是获取老挝语-泰语候选平行句子的重要过程,分析和利用老挝语和泰语在构词等方面的相似性,通过构建的词典逐词翻译获取候选平行语料,为下一步通过模型抽取老挝语-泰语平行语料做准备。
进一步地,所述步骤Step3的具体步骤:
Step3.1、人工构建基于句对齐的老挝语-泰语平行语料;
本发明是在老挝语-泰语平行语料的基础上训练模型,因此,需要高质量的平行语料使得训练的模型更加有效。所以,采用人工的方式构建老挝语-泰语平行语料,确保训练模型的数据是完全准确的平行语料,以得到老挝语-泰语平行句对分类模型。
Step3.2、因为老挝语和泰语在词语和读音上具有极大的相似性,因此利用双向LSTM将构建的老挝语-泰语平行句对在共享语义空间中进行表征,具体是使用双向LSTM得到前后向的状态向量,并做拼接得到共同语义空间中的句子向量表示,即:
Figure BDA0002198521770000021
Figure BDA0002198521770000022
Figure BDA0002198521770000023
Figure BDA0002198521770000024
Figure BDA0002198521770000031
其中,
Figure BDA0002198521770000033
表示泰语第i个句子在N状态的隐向量前向表示;
Figure BDA0002198521770000034
是表示泰语第i个句子在N-1状态的隐向量前向表示,
Figure BDA0002198521770000035
是第i个句子中N状态时泰语句子的词向量表示,LSTM表示LSTM激活函数;
Figure BDA0002198521770000036
表示泰语第i个句子在N状态的隐向量后向表示;
Figure BDA0002198521770000037
是表示泰语第i个句子在N+1状态的隐向量后向表示;
表示第i个句子将两个方向得到的最终向量拼接得到第i句的句子向量表示;
Figure BDA0002198521770000039
表示老挝语第i个句子在N状态的隐向量前向表示;
Figure BDA00021985217700000310
是表示老挝语第i个句子在N-1状态的隐向量前向表示,
Figure BDA00021985217700000311
是第i个句子中N状态时老挝语句子的词向量表示;
Figure BDA00021985217700000312
表示老挝语第i个句子在N状态的隐向量后向表示;
Figure BDA00021985217700000313
是表示老挝语第i个句子在N+1状态的隐向量后向表示;
表示第i个句子将两个方向得到的最终向量拼接得到第i句的句子向量表示;
然后利用向量点积和向量差捕获两个向量之间的匹配信息,得到匹配向量:
Figure BDA00021985217700000315
Figure BDA00021985217700000316
Figure BDA00021985217700000317
其中,其分别表示通过老挝语和泰语的句子向量点积和向量差值的计算得到的包含句子匹配信息的匹配向量;hi是包含匹配信息的最终向量表示,W1,W2,b是双向LSTM模型的参数;
Step3.3、最后使用卷积神经网络的全连接层,通过sigmoid函数计算老挝语和泰语句子是平行句子的概率判断两个句子之间是否是互译的;
p(yi=1|hi)=σ(W3hi+c)
其中,p(yi=1|hi)表示在得到的向量hi的条件下两个句子互译的概率值,yi=1即表示两个句子互译,W3,c是卷积神经网络模型参数,σ是激活函数;
Step3.4、使用如下交叉熵损失作为损失函数,多次迭代,更新双向LSTM模型、卷积神经网络模型的参数,训练双向LSTM模型、卷积神经网络模型,即训练老挝语-泰语平行句对分类模型,然后通过训练好的老挝语-泰语平行句对分类模型,对候选的老挝语-泰语平行句对进行分类,把互译的老挝语-泰语平行句子抽取出来,从而获取老挝语-泰语双语平行句对;
其中损失函数如下:
Figure BDA0002198521770000041
其中,yi=1或yi=0,yi=1表示两个老挝语和泰语的句子是平行的,yi=0表示两个老挝语和泰语的句子是不平行的,n代表训练模型中正样本即平行句子的数量,m代表训练模型中负样本即不平行的句子的数量。
一种以泰语为枢轴的老-汉双语语料库构建装置,包括数据预处理模块、词典翻译模块、老挝语-泰语平行句对抽取模块、老挝语-汉语平行语料构建模块;
数据预处理模块:用于从现有的汉语-泰语平行语料数据中抽取泰语句子并进行泰语分词处理;
词典翻译模块:用于构建老挝语-泰语双语词典,并利用老挝语-泰语双语词典将泰语句子逐词翻译成老挝语句子序列,得到候选的老挝语-泰语平行句对;
老挝语-泰语平行句对抽取模块:用于构建基于双向LSTM的老挝语-泰语平行句对分类模型,对候选的老挝语-泰语平行句对进行分类,把互译的老挝语-泰语平行句子抽取出来,从而获取老挝语-泰语双语平行句对;
老挝语-汉语平行语料构建模块:用于将获取得到的老挝语-泰语双语平行句对语料与已有的汉语-泰语平行语料以泰语为枢轴语言对老挝语和汉语进行匹配,构建老挝语-汉语双语平行语料库。
本发明的有益效果是:
老挝语是东南亚语言中资源稀缺的语种,直接从互联网上获取老-汉双语平行资源十分的困难,本发明提出以泰语为枢轴构建老-汉双语平行语料库的方法,利用老挝语-泰语之间的相似性,在汉-泰双语平行语料的基础上,通过词典翻译和神经网络模型分类,构建老-汉双语平行语料,以此来解决老挝语-汉语语料稀缺的问题,对老-汉双语语料库的构建具有一定的理论意义和实际应用价值。
附图说明
图1为本发明中的流程图;
图2为本发明中的老挝语-泰语句法相似性图;
图3为本发明中的对于翻译中一词多义现象图;
图4为本发明中的平行句子分类流程图;
图5为本发明中的装置结构图;
图6为本发明中总的方法流程框图。
具体实施方式
实施例1:如图1-6所示,一种以泰语为枢轴的老-汉双语语料库构建方法,包括如下步骤:
Step1、从现有的汉语-泰语平行语料数据中抽取泰语句子并进行泰语分词处理;
作为本发明的优选方案,所述步骤Step1的具体步骤:
Step1.1、从已有的汉语-泰语双语平行语料库中选取20-50个字符的泰语句子;
Step1.2、对选取的泰语句子可以使用昆明理工大学研发的东南亚小语种语言信息处理平台,网址为http://222.197.219.24:8099/做分词处理。
本发明考虑到泰语采取连书形式,没有分词,无法做基于词的翻译以及使用到模型中。因此,要通过泰语分词工具进行分词,得到分好词的泰语句子。
此优选方案设计是本发明的重要组成部分,主要为本发明提供语料及数据预处理过程,为后续的词典翻译及模型使用提供语料基础。
Step2、构建老挝语-泰语双语词典,并利用老挝语-泰语双语词典将泰语句子逐词翻译成老挝语句子序列,得到候选的老挝语-泰语平行句对;
作为本发明的优选方案,所述步骤Step2的具体步骤:
Step2.1、老挝语-泰语双语词典的构建:主要是以英语作为中间语言,在老挝语-英语的词典和泰语-英语词典的基础上,利用英语单词来对齐老挝语和泰语单词,以此构建老挝语-泰语双语词典;
Step2.2、人工分析了泰语和老挝语在句法结构上的相似性,由于老挝语-泰语在句子构成上基本保持一致,即词语顺序一致,如图2所示,所以可以利用词典逐个翻译生成候选老挝语-泰语平行句子;
具体的,将已获取的汉语-泰语双语平行句对中的泰语句子利用老挝语-泰语双语词典进行逐词翻译,由于存在一词多义的情况,在通过词典翻译时,就可能会生成多个语义不同的老挝语句子,从而得到候选的老挝语-泰语平行句对,如图3所示,其中候选的老挝语-泰语平行句对中,是一句泰语对应多句老挝语的多组句子,它不全是互译的。
此优选设计方案是获取老挝语-泰语候选平行句子的重要过程,分析和利用老挝语和泰语在构词等方面的相似性,通过构建的词典逐词翻译获取候选平行语料,为下一步通过模型抽取老挝语-泰语平行语料做准备。
Step3、构建基于双向LSTM的老挝语-泰语平行句对分类模型,对候选的老挝语-泰语平行句对进行分类,把互译的老挝语-泰语平行句子抽取出来,从而获取老挝语-泰语双语平行句对;
作为本发明的优选方案,所述步骤Step3的具体步骤:
Step3.1、人工构建基于句对齐的9483条老挝语-泰语平行语料;
本发明是在老挝语-泰语平行语料的基础上训练模型,因此,需要高质量的平行语料使得训练的模型更加有效。所以,采用人工的方式构建老挝语-泰语平行语料,确保训练模型的数据是完全准确的平行语料,以得到老挝语-泰语平行句对分类模型。
分析了泰语和老挝语在词语构成和读音上的相似性。在词语上,老挝语和泰语具有很多相似的词语,它们不仅在含义上相同,并且在书写上也是有很大的相似性的,比如,
Figure BDA0002198521770000061
(泰语)和
Figure BDA0002198521770000062
(老挝语)都表示“公司”的意思;
Figure BDA0002198521770000063
(泰语)和
Figure BDA0002198521770000064
(老挝语)都是“提前”的意思;
Figure BDA0002198521770000065
(泰语)和
Figure BDA0002198521770000066
(老挝语)表示“老板”。在读音上,泰语的“湄公河”的读音是menamkong,老挝语的“湄公河”读音同样是menamkong。根据以上例子可以看出,泰语和老挝语在词语上基本上书写是一样的,而且读音基本相同,可以利用这样的语言特点对句子进行表示。
Step3.2、因为老挝语和泰语在词语和读音上具有极大的相似性,可以将这两种相似语言的句子表示到共享的语义空间中,如图4所示,利用双向LSTM将构建的老挝语-泰语平行句对在共享语义空间中进行表征,双向LSTM与LSTM相比主要是弥补LSTM在对句子建模时从后到前的编码问题,可以更好的捕捉前向和后向的语义之间的关系。具体过程如下:
首先,利用嵌入矩阵和句子中词的one-hot向量来编码词向量,即:
Figure BDA0002198521770000069
其中E是嵌入矩阵,wk代表的是词表中第k个词的one-hot表示,i表示句子的序号。
在得到了向量表示后,将句子送入到双向LSTM中,并选择前向和后向两个方向上最后状态的向量作为最终表示向量:
Figure BDA0002198521770000071
Figure BDA0002198521770000072
得到了两个方向的最终状态向量后,将两个向量做拼接
Figure BDA0002198521770000073
得到最终表示。同理老挝语做同样的处理得到老挝语最终句子表示
Figure BDA0002198521770000074
Figure BDA0002198521770000075
Figure BDA0002198521770000076
Figure BDA0002198521770000077
其中,
Figure BDA0002198521770000078
表示泰语第i个句子在N状态的隐向量前向表示;
Figure BDA0002198521770000079
是表示泰语第i个句子在N-1状态的隐向量前向表示,
Figure BDA00021985217700000710
是第i个句子中N状态时泰语句子的词向量表示,LSTM表示LSTM激活函数;
Figure BDA00021985217700000711
表示泰语第i个句子在N状态的隐向量后向表示;
Figure BDA00021985217700000712
是表示泰语第i个句子在N+1状态的隐向量后向表示;
Figure BDA00021985217700000713
表示第i个句子将两个方向得到的最终向量拼接得到第i句的句子向量表示;
表示老挝语第i个句子在N状态的隐向量前向表示;
Figure BDA00021985217700000715
是表示老挝语第i个句子在N-1状态的隐向量前向表示,
Figure BDA00021985217700000716
是第i个句子中N状态时老挝语句子的词向量表示;
Figure BDA00021985217700000717
表示老挝语第i个句子在N状态的隐向量后向表示;
Figure BDA00021985217700000718
是表示老挝语第i个句子在N+1状态的隐向量后向表示;
Figure BDA00021985217700000719
表示第i个句子将两个方向得到的最终向量拼接得到第i句的句子向量表示;
为了获取两个句子的互译程度,将两个句子向量分别做向量点积和向量差处理捕获两个向量之间的匹配信息,得到匹配向量:
Figure BDA0002198521770000082
Figure BDA0002198521770000083
其中,
Figure BDA0002198521770000084
其分别表示通过老挝语和泰语的句子向量点积和向量差值的计算得到的包含句子匹配信息的匹配向量;hi是包含匹配信息的最终向量表示,W1,W2,b是双向LSTM模型的参数;
Step3.3、全连接层(fully connected layers,FC)在整个卷积神经网络中起到“分类器”的作用,在得到老挝语和泰语的句子匹配程度向量表示后,最后使用卷积神经网络的全连接层,通过sigmoid函数计算老挝语和泰语句子是平行句子的概率判断两个句子之间是否是平行的(互译的);
p(yi=1|hi)=σ(W3hi+c)
其中,p(yi=1|hi)表示在得到的向量hi的条件下两个句子互译的概率值,yi=1即表示两个句子是平行的(互译),W3,c是卷积神经网络模型参数,σ是激活函数;
Step3.4、使用如下交叉熵损失作为损失函数,迭代了15次,更新双向LSTM模型、卷积神经网络模型的参数,训练双向LSTM模型、卷积神经网络模型,即训练老挝语-泰语平行句对分类模型,然后通过训练好的老挝语-泰语平行句对分类模型,对候选的老挝语-泰语平行句对进行分类,把互译的老挝语-泰语平行句子抽取出来,从而获取老挝语-泰语双语平行句对;
其中损失函数如下:
Figure BDA0002198521770000085
其中,yi=1或yi=0,yi=1表示两个老挝语和泰语的句子是平行的,yi=0表示两个老挝语和泰语的句子是不平行的,n代表训练模型中正样本即平行句子的数量,m代表训练模型中负样本即不平行的句子的数量。
模型的训练中使用了人工构建的9483条老挝语-泰语双语平行语料,并做好分词,然后分为训练集和测试集,其中训练集8883条,测试集600条,测试集用来测试模型训练的结果。
Step4、将获取得到的老挝语-泰语双语平行句对语料与已有的汉语-泰语平行语料以泰语为枢轴语言对老挝语和汉语进行匹配,构建老挝语-汉语双语平行语料库。
在用老挝语-泰语平行句对分类模型对老-泰双语平行句子分类中,本发明采用F1值来评价模型的好坏,具体公式如下:
Figure BDA0002198521770000091
Figure BDA0002198521770000092
Figure BDA0002198521770000093
其中TP是把原来的正类预测成正类,FN是把原来的正类预测为负类,FP是把负类预测为正类。F1值是精确率和召回率的调和均值。
为了比较老挝语-泰语平行句对分类模型和传统机器学习方法在平行句子分类上的效果,将本发明的老挝语-泰语平行句对分类模型与几种常用机器学习模型做了对比,如表1所示。
表1:平行句分类模型结果对比
编号 模型 F1值(%)
1 SVM 68.78
2 LR 65.04
3 Random forest 51.49
4 Gbdt 60.03
5 老挝语-泰语平行句对分类模型 71.30
从表1结果可以看出,利用本发明老挝语-泰语平行句对分类模型对平行句子进行分类时,准确性比利用机器学习的方法进行分类时要好,从而获取的老挝语-泰语双语平行句对的准确性就高,再与现有的汉语-泰语平行语料以泰语为枢轴语言对老挝语和汉语进行匹配,构建的老挝语-汉语双语平行语料准确性高。
参见图5,本发明提供一种以泰语为枢轴的老-汉双语语料库构建装置,包括数据预处理模块、词典翻译模块、老挝语-泰语平行句对抽取模块、老挝语-汉语平行语料构建模块;
数据预处理模块:用于从现有的汉语-泰语平行语料数据中抽取泰语句子并进行泰语分词处理;
词典翻译模块:用于构建老挝语-泰语双语词典,并利用老挝语-泰语双语词典将泰语句子逐词翻译成老挝语句子序列,得到候选的老挝语-泰语平行句对;
老挝语-泰语平行句对抽取模块:用于构建基于双向LSTM的老挝语-泰语平行句对分类模型,对候选的老挝语-泰语平行句对进行分类,把互译的老挝语-泰语平行句子抽取出来,从而获取老挝语-泰语双语平行句对;
老挝语-汉语平行语料构建模块:用于将获取得到的老挝语-泰语双语平行句对语料与已有的汉语-泰语平行语料以泰语为枢轴语言对老挝语和汉语进行匹配,构建老挝语-汉语双语平行语料库。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (5)

1.一种以泰语为枢轴的老-汉双语语料库构建方法,其特征在于:包括如下步骤:
Step1、从现有的汉语-泰语平行语料数据中抽取泰语句子并进行泰语分词处理;
Step2、构建老挝语-泰语双语词典,并利用老挝语-泰语双语词典将泰语句子逐词翻译成老挝语句子序列,得到候选的老挝语-泰语平行句对;
Step3、构建基于双向LSTM的老挝语-泰语平行句对分类模型,对候选的老挝语-泰语平行句对进行分类,把互译的老挝语-泰语平行句子抽取出来,从而获取老挝语-泰语双语平行句对;
Step4、将获取得到的老挝语-泰语双语平行句对语料与已有的汉语-泰语平行语料以泰语为枢轴语言对老挝语和汉语进行匹配,构建老挝语-汉语双语平行语料库。
2.根据权利要求1所述的以泰语为枢轴的老-汉双语语料库构建方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、从已有的汉语-泰语双语平行语料库中选取20-50个字符的泰语句子;
Step1.2、对选取的泰语句子进行分词处理。
3.根据权利要求1所述的以泰语为枢轴的老-汉双语语料库构建方法,其特征在于:所述步骤Step2的具体步骤:
Step2.1、老挝语-泰语双语词典的构建:主要是以英语作为中间语言,在老挝语-英语的词典和泰语-英语词典的基础上,利用英语单词来对齐老挝语和泰语单词,以此构建老挝语-泰语双语词典;
Step2.2、由于老挝语-泰语极其相似,将已获取的汉语-泰语双语平行句对中的泰语句子利用老挝语-泰语双语词典进行逐词翻译,由于存在一词多义的情况,在通过词典翻译时,就可能会生成多个语义不同的老挝语句子,从而得到候选的老挝语-泰语平行句对,其中候选的老挝语-泰语平行句对中,是一句泰语对应多句老挝语的多组句子,它不全是互译的。
4.根据权利要求1所述的以泰语为枢轴的老-汉双语语料库构建方法,其特征在于:所述步骤Step3的具体步骤:
Step3.1、人工构建基于句对齐的老挝语-泰语平行语料;
Step3.2、因为老挝语和泰语在词语和读音上具有极大的相似性,因此利用双向LSTM将构建的老挝语-泰语平行句对在共享语义空间中进行表征,具体是使用双向LSTM得到前后向的状态向量,并做拼接得到共同语义空间中的句子向量表示,即:
Figure FDA0002198521760000022
Figure FDA0002198521760000023
Figure FDA0002198521760000024
Figure FDA0002198521760000025
Figure FDA0002198521760000026
其中,表示泰语第i个句子在N状态的隐向量前向表示;
Figure FDA0002198521760000028
是表示泰语第i个句子在N-1状态的隐向量前向表示,是第i个句子中N状态时泰语句子的词向量表示,LSTM表示LSTM激活函数;
Figure FDA00021985217600000210
表示泰语第i个句子在N状态的隐向量后向表示;
Figure FDA00021985217600000211
是表示泰语第i个句子在N+1状态的隐向量后向表示;
Figure FDA00021985217600000212
表示第i个句子将两个方向得到的最终向量拼接得到第i句的句子向量表示;
Figure FDA00021985217600000213
表示老挝语第i个句子在N状态的隐向量前向表示;
Figure FDA00021985217600000214
是表示老挝语第i个句子在N-1状态的隐向量前向表示,
Figure FDA00021985217600000215
是第i个句子中N状态时老挝语句子的词向量表示;
Figure FDA00021985217600000216
表示老挝语第i个句子在N状态的隐向量后向表示;
Figure FDA00021985217600000217
是表示老挝语第i个句子在N+1状态的隐向量后向表示;
Figure FDA00021985217600000218
表示第i个句子将两个方向得到的最终向量拼接得到第i句的句子向量表示;
然后利用向量点积和向量差捕获两个向量之间的匹配信息,得到匹配向量:
Figure FDA00021985217600000219
Figure FDA00021985217600000220
Figure FDA00021985217600000221
其中,
Figure FDA00021985217600000222
其分别表示通过老挝语和泰语的句子向量点积和向量差值的计算得到的包含句子匹配信息的匹配向量;hi是包含匹配信息的最终向量表示,W1,W2,b是双向LSTM模型的参数;
Step3.3、最后使用卷积神经网络的全连接层,通过sigmoid函数计算老挝语和泰语句子是平行句子的概率判断两个句子之间是否是互译的;
p(yi=1|hi)=σ(W3hi+c)
其中,p(yi=1|hi)表示在得到的向量hi的条件下两个句子互译的概率值,yi=1即表示两个句子互译,W3,c是卷积神经网络模型参数,σ是激活函数;
Step3.4、使用如下交叉熵损失作为损失函数,多次迭代,更新双向LSTM模型、卷积神经网络模型的参数,训练双向LSTM模型、卷积神经网络模型,即训练老挝语-泰语平行句对分类模型,然后通过训练好的老挝语-泰语平行句对分类模型,对候选的老挝语-泰语平行句对进行分类,把互译的老挝语-泰语平行句子抽取出来,从而获取老挝语-泰语双语平行句对;
其中损失函数如下:
Figure FDA0002198521760000031
其中,yi=1或yi=0,yi=1表示两个老挝语和泰语的句子是平行的,yi=0表示两个老挝语和泰语的句子是不平行的,n代表训练模型中正样本即平行句子的数量,m代表训练模型中负样本即不平行的句子的数量。
5.一种以泰语为枢轴的老-汉双语语料库构建装置,其特征在于:包括数据预处理模块、词典翻译模块、老挝语-泰语平行句对抽取模块、老挝语-汉语平行语料构建模块;
数据预处理模块:用于从现有的汉语-泰语平行语料数据中抽取泰语句子并进行泰语分词处理;
词典翻译模块:用于构建老挝语-泰语双语词典,并利用老挝语-泰语双语词典将泰语句子逐词翻译成老挝语句子序列,得到候选的老挝语-泰语平行句对;
老挝语-泰语平行句对抽取模块:用于构建基于双向LSTM的老挝语-泰语平行句对分类模型,对候选的老挝语-泰语平行句对进行分类,把互译的老挝语-泰语平行句子抽取出来,从而获取老挝语-泰语双语平行句对;
老挝语-汉语平行语料构建模块:用于将获取得到的老挝语-泰语双语平行句对语料与已有的汉语-泰语平行语料以泰语为枢轴语言对老挝语和汉语进行匹配,构建老挝语-汉语双语平行语料库。
CN201910856645.8A 2019-09-11 2019-09-11 一种以泰语为枢轴的老-汉双语语料库构建方法及装置 Active CN110717341B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910856645.8A CN110717341B (zh) 2019-09-11 2019-09-11 一种以泰语为枢轴的老-汉双语语料库构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910856645.8A CN110717341B (zh) 2019-09-11 2019-09-11 一种以泰语为枢轴的老-汉双语语料库构建方法及装置

Publications (2)

Publication Number Publication Date
CN110717341A true CN110717341A (zh) 2020-01-21
CN110717341B CN110717341B (zh) 2022-06-14

Family

ID=69209837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910856645.8A Active CN110717341B (zh) 2019-09-11 2019-09-11 一种以泰语为枢轴的老-汉双语语料库构建方法及装置

Country Status (1)

Country Link
CN (1) CN110717341B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287688A (zh) * 2020-09-17 2021-01-29 昆明理工大学 融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置
CN113627150A (zh) * 2021-07-01 2021-11-09 昆明理工大学 基于语言相似性的迁移学习平行句对抽取方法及装置
CN114417807A (zh) * 2022-01-24 2022-04-29 中国电子科技集团公司第五十四研究所 面向有无人协同场景的类人语言描述表达方法
CN115329785A (zh) * 2022-10-15 2022-11-11 小语智能信息科技(云南)有限公司 融入音素特征的英-泰-老多语言神经机器翻译方法及装置
RU2790026C2 (ru) * 2020-12-22 2023-02-14 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер для обучения алгоритма машинного обучения для перевода
CN116822495A (zh) * 2023-08-31 2023-09-29 小语智能信息科技(云南)有限公司 基于对比学习的汉-老、泰平行句对抽取方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855263A (zh) * 2011-06-30 2013-01-02 富士通株式会社 一种对双语语料库进行句子对齐的方法及装置
US9348809B1 (en) * 2015-02-02 2016-05-24 Linkedin Corporation Modifying a tokenizer based on pseudo data for natural language processing
CN108363704A (zh) * 2018-03-02 2018-08-03 北京理工大学 一种基于统计短语表的神经网络机器翻译语料扩展方法
CN108491383A (zh) * 2018-03-14 2018-09-04 昆明理工大学 一种基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法
CN108549629A (zh) * 2018-03-19 2018-09-18 昆明理工大学 一种结合相似度和图匹配的老-汉双语句子对齐方法
CN109783809A (zh) * 2018-12-22 2019-05-21 昆明理工大学 一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法
CN109885686A (zh) * 2019-02-20 2019-06-14 延边大学 一种融合主题信息和BiLSTM-CNN的多语种文本分类方法
CN110083826A (zh) * 2019-03-21 2019-08-02 昆明理工大学 一种基于Transformer模型的老汉双语对齐方法
CN110110061A (zh) * 2019-04-26 2019-08-09 同济大学 基于双语词向量的低资源语种实体抽取方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855263A (zh) * 2011-06-30 2013-01-02 富士通株式会社 一种对双语语料库进行句子对齐的方法及装置
US9348809B1 (en) * 2015-02-02 2016-05-24 Linkedin Corporation Modifying a tokenizer based on pseudo data for natural language processing
CN108363704A (zh) * 2018-03-02 2018-08-03 北京理工大学 一种基于统计短语表的神经网络机器翻译语料扩展方法
CN108491383A (zh) * 2018-03-14 2018-09-04 昆明理工大学 一种基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法
CN108549629A (zh) * 2018-03-19 2018-09-18 昆明理工大学 一种结合相似度和图匹配的老-汉双语句子对齐方法
CN109783809A (zh) * 2018-12-22 2019-05-21 昆明理工大学 一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法
CN109885686A (zh) * 2019-02-20 2019-06-14 延边大学 一种融合主题信息和BiLSTM-CNN的多语种文本分类方法
CN110083826A (zh) * 2019-03-21 2019-08-02 昆明理工大学 一种基于Transformer模型的老汉双语对齐方法
CN110110061A (zh) * 2019-04-26 2019-08-09 同济大学 基于双语词向量的低资源语种实体抽取方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
KEYSERS DANIEL 等: "Multi-language online handwriting recognition", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
WANG YONGQIANG 等: "Research on the Recognition of Offline Handwritten New Tai Lue Characters Based on Bidirectional LSTM", 《INTERNATIONAL CONFERENCE ON NETWORK, COMMUNICATION, COMPUTER ENGINEERING》 *
杨蓓 等: "半监督学习的老挝语词性标注方法研究", 《计算机科学》 *
聂男: "以泰语为枢轴的老—汉双语语料库构建方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)哲学与人文科学辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287688A (zh) * 2020-09-17 2021-01-29 昆明理工大学 融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置
CN112287688B (zh) * 2020-09-17 2022-02-11 昆明理工大学 融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置
RU2790026C2 (ru) * 2020-12-22 2023-02-14 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер для обучения алгоритма машинного обучения для перевода
CN113627150A (zh) * 2021-07-01 2021-11-09 昆明理工大学 基于语言相似性的迁移学习平行句对抽取方法及装置
CN113627150B (zh) * 2021-07-01 2022-12-20 昆明理工大学 基于语言相似性的迁移学习平行句对抽取方法及装置
CN114417807A (zh) * 2022-01-24 2022-04-29 中国电子科技集团公司第五十四研究所 面向有无人协同场景的类人语言描述表达方法
CN114417807B (zh) * 2022-01-24 2023-09-22 中国电子科技集团公司第五十四研究所 面向有无人协同场景的类人语言描述表达方法
CN115329785A (zh) * 2022-10-15 2022-11-11 小语智能信息科技(云南)有限公司 融入音素特征的英-泰-老多语言神经机器翻译方法及装置
CN116822495A (zh) * 2023-08-31 2023-09-29 小语智能信息科技(云南)有限公司 基于对比学习的汉-老、泰平行句对抽取方法及装置
CN116822495B (zh) * 2023-08-31 2023-11-03 小语智能信息科技(云南)有限公司 基于对比学习的汉-老、泰平行句对抽取方法及装置

Also Published As

Publication number Publication date
CN110717341B (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN110717341B (zh) 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN109213995B (zh) 一种基于双语词嵌入的跨语言文本相似度评估技术
CN108614875B (zh) 基于全局平均池化卷积神经网络的中文情感倾向性分类方法
CN110059188B (zh) 一种基于双向时间卷积网络的中文情感分析方法
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN111061861B (zh) 一种基于XLNet的文本摘要自动生成方法
CN110414009B (zh) 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置
CN110619043A (zh) 基于动态词向量的自动文本摘要生成方法
CN112231472B (zh) 融入领域术语词典的司法舆情敏感信息识别方法
CN110489750A (zh) 基于双向lstm-crf的缅甸语分词及词性标注方法及装置
CN112016320A (zh) 基于数据增强的英文标点符号添加方法和系统及设备
CN112561718A (zh) 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法
Huang et al. End-to-end sequence labeling via convolutional recurrent neural network with a connectionist temporal classification layer
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN111581943A (zh) 一种基于句子关联图的汉越双语多文档新闻观点句识别方法
CN115510863A (zh) 一种面向问句匹配任务的数据增强方法
CN111553157A (zh) 一种基于实体替换的对话意图识别方法
Bigot et al. Person name recognition in ASR outputs using continuous context models
CN112632272A (zh) 基于句法分析的微博情感分类方法和系统
Zhao et al. Tibetan Multi-Dialect Speech and Dialect Identity Recognition.
CN117332789A (zh) 一种面向对话场景的语义分析方法及系统
Sun Analysis of Chinese machine translation training based on deep learning technology
CN115934948A (zh) 一种基于知识增强的药物实体关系联合抽取方法及系统
Suleiman et al. Recurrent neural network techniques: Emphasis on use in neural machine translation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant