CN110717341B - 一种以泰语为枢轴的老-汉双语语料库构建方法及装置 - Google Patents

一种以泰语为枢轴的老-汉双语语料库构建方法及装置 Download PDF

Info

Publication number
CN110717341B
CN110717341B CN201910856645.8A CN201910856645A CN110717341B CN 110717341 B CN110717341 B CN 110717341B CN 201910856645 A CN201910856645 A CN 201910856645A CN 110717341 B CN110717341 B CN 110717341B
Authority
CN
China
Prior art keywords
thai
laos
sentence
parallel
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910856645.8A
Other languages
English (en)
Other versions
CN110717341A (zh
Inventor
毛存礼
高旭
余正涛
高盛祥
王振晗
聂男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201910856645.8A priority Critical patent/CN110717341B/zh
Publication of CN110717341A publication Critical patent/CN110717341A/zh
Application granted granted Critical
Publication of CN110717341B publication Critical patent/CN110717341B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及以泰语为枢轴的老‑汉双语语料库构建方法及装置,属自然语言处理领域。本发明先对汉语‑泰语平行语料数据进行泰语分词处理;构建老挝语‑泰语双语词典,并利用其将泰语句子逐词翻译成老挝语句子序列,得到候选的老挝语‑泰语平行句对;构建基于双向LSTM的老挝语‑泰语平行句对分类模型,对候选的老挝语‑泰语平行句对进行分类,获取老挝语‑泰语双语平行句对;以泰语为枢轴语言对老挝语和汉语进行匹配,构建老挝语‑汉语双语平行语料库。并根据上述步骤功能模块化制成以泰语为枢轴语言的老‑汉双语平行语料库构建装置,本发明解决了老挝语‑汉语语料稀缺的问题,对老‑汉双语语料库的构建具有一定的理论意义和实际应用价值。

Description

一种以泰语为枢轴的老-汉双语语料库构建方法及装置
技术领域
本发明涉及一种以泰语为枢轴的老-汉双语语料库构建方法及装置,属于自然语言处理技术领域。
背景技术
语料库建设是自然语言处理研究工作的前提,老-汉双语语料库是开展汉-老机器翻译及跨语言检索的重要数据资源,而老挝语是东南亚语言中资源较为稀缺的语言,老-汉双语平行资源较为稀缺,直接从互联网上获取老-汉双语平行资源存在较大困难。
老挝语和泰语都属于汉藏语系壮侗语族壮傣语支,基本词汇几乎相同或相似,句法结构上也有很大的相似性,而汉-泰平行语料又相对较容易获取,所以可以利用老挝语和泰语的相似性,获取老-泰平行句对,以泰语为枢轴的基础上构建老-汉双语平行语料。
发明内容
本发明提供了一种以泰语为枢轴的老-汉双语语料库构建方法及装置,以用于构建老挝语-汉语双语平行语料库。
本发明的技术方案是:一种以泰语为枢轴的老-汉双语语料库构建方法,包括如下步骤:
Step1、从现有的汉语-泰语平行语料数据中抽取泰语句子并进行泰语分词处理;
Step2、构建老挝语-泰语双语词典,并利用老挝语-泰语双语词典将泰语句子逐词翻译成老挝语句子序列,得到候选的老挝语-泰语平行句对;
Step3、构建基于双向LSTM的老挝语-泰语平行句对分类模型,对候选的老挝语-泰语平行句对进行分类,把互译的老挝语-泰语平行句子抽取出来,从而获取老挝语-泰语双语平行句对;
Step4、将获取得到的老挝语-泰语双语平行句对语料与已有的汉语-泰语平行语料以泰语为枢轴语言对老挝语和汉语进行匹配,构建老挝语-汉语双语平行语料库。
进一步地,所述步骤Step1的具体步骤为:
Step1.1、从已有的汉语-泰语双语平行语料库中选取20-50个字符的泰语句子;
Step1.2、对选取的泰语句子进行分词处理,分词工具使用昆明理工大学研发的东南亚小语种语言信息处理平台,网址为http://222.197.219.24:8099/。
本发明考虑到泰语采取连书形式,没有分词,无法做基于词的翻译以及使用到模型中。因此,要通过泰语分词工具进行分词,得到分好词的泰语句子。
此优选方案设计是本发明的重要组成部分,主要为本发明提供语料及数据预处理过程,为后续的词典翻译及模型使用提供语料基础。
进一步地,所述步骤Step2的具体步骤:
Step2.1、老挝语-泰语双语词典的构建:主要是以英语作为中间语言,在老挝语-英语的词典和泰语-英语词典的基础上,利用英语单词来对齐老挝语和泰语单词,以此构建老挝语-泰语双语词典;
Step2.2、由于老挝语-泰语极其相似,将已获取的汉语-泰语双语平行句对中的泰语句子利用老挝语-泰语双语词典进行逐词翻译,由于存在一词多义的情况,在通过词典翻译时,就可能会生成多个语义不同的老挝语句子,从而得到候选的老挝语-泰语平行句对,其中候选的老挝语-泰语平行句对中,是一句泰语对应多句老挝语的多组句子,它不全是互译的。
此优选设计方案是获取老挝语-泰语候选平行句子的重要过程,分析和利用老挝语和泰语在构词等方面的相似性,通过构建的词典逐词翻译获取候选平行语料,为下一步通过模型抽取老挝语-泰语平行语料做准备。
进一步地,所述步骤Step3的具体步骤:
Step3.1、人工构建基于句对齐的老挝语-泰语平行语料;
本发明是在老挝语-泰语平行语料的基础上训练模型,因此,需要高质量的平行语料使得训练的模型更加有效。所以,采用人工的方式构建老挝语-泰语平行语料,确保训练模型的数据是完全准确的平行语料,以得到老挝语-泰语平行句对分类模型。
Step3.2、因为老挝语和泰语在词语和读音上具有极大的相似性,因此利用双向LSTM将构建的老挝语-泰语平行句对在共享语义空间中进行表征,具体是使用双向LSTM得到前后向的状态向量,并做拼接得到共同语义空间中的句子向量表示,即:
Figure GDA0003613686710000021
Figure GDA0003613686710000022
Figure GDA0003613686710000023
Figure GDA0003613686710000024
Figure GDA0003613686710000031
Figure GDA0003613686710000032
其中,
Figure GDA0003613686710000033
表示泰语第i个句子在N状态的隐向量前向表示;
Figure GDA0003613686710000034
是表示泰语第i个句子在N-1状态的隐向量前向表示,
Figure GDA0003613686710000035
是第i个句子中N状态时泰语句子的词向量表示,LSTM表示LSTM激活函数;
Figure GDA0003613686710000036
表示泰语第i个句子在N状态的隐向量后向表示;
Figure GDA0003613686710000037
是表示泰语第i个句子在N+1状态的隐向量后向表示;
Figure GDA0003613686710000038
表示泰语第i个句子将两个方向得到的最终向量拼接得到第i句的句子向量表示;
Figure GDA0003613686710000039
表示老挝语第i个句子在N状态的隐向量前向表示;
Figure GDA00036136867100000310
是表示老挝语第i个句子在N-1状态的隐向量前向表示,
Figure GDA00036136867100000311
是第i个句子中N状态时老挝语句子的词向量表示;
Figure GDA00036136867100000312
表示老挝语第i个句子在N状态的隐向量后向表示;
Figure GDA00036136867100000313
是表示老挝语第i个句子在N+1状态的隐向量后向表示;
Figure GDA00036136867100000314
表示老挝语第i个句子将两个方向得到的最终向量拼接得到第i句的句子向量表示;
然后利用向量点积和向量差捕获两个向量之间的匹配信息,得到匹配向量:
Figure GDA00036136867100000315
Figure GDA00036136867100000316
Figure GDA00036136867100000317
其中,
Figure GDA00036136867100000318
其分别表示通过老挝语和泰语的句子向量点积和向量差值的计算得到的包含句子匹配信息的匹配向量;hi是包含匹配信息的最终向量表示,W1,W2,b是双向LSTM模型的参数;
Step3.3、最后使用卷积神经网络的全连接层,通过sigmoid函数计算老挝语和泰语句子是平行句子的概率判断两个句子之间是否是互译的;
p(yi=1|hi)=σ(W3hi+c)
其中,p(yi=1|hi)表示在得到的向量hi的条件下两个句子互译的概率值,yi=1即表示两个句子互译,W3,c是卷积神经网络模型参数,σ是激活函数;
Step3.4、使用如下交叉熵损失作为损失函数,多次迭代,更新双向LSTM模型、卷积神经网络模型的参数,训练双向LSTM模型、卷积神经网络模型,即训练老挝语-泰语平行句对分类模型,然后通过训练好的老挝语-泰语平行句对分类模型,对候选的老挝语-泰语平行句对进行分类,把互译的老挝语-泰语平行句子抽取出来,从而获取老挝语-泰语双语平行句对;
其中损失函数如下:
Figure GDA0003613686710000041
其中,yi=1或yi=0,yi=1表示两个老挝语和泰语的句子是平行的,yi=0表示两个老挝语和泰语的句子是不平行的,n代表训练模型中正样本即平行句子的数量,m代表训练模型中负样本即不平行的句子的数量。
一种以泰语为枢轴的老-汉双语语料库构建装置,包括数据预处理模块、词典翻译模块、老挝语-泰语平行句对抽取模块、老挝语-汉语平行语料构建模块;
数据预处理模块:用于从现有的汉语-泰语平行语料数据中抽取泰语句子并进行泰语分词处理;
词典翻译模块:用于构建老挝语-泰语双语词典,并利用老挝语-泰语双语词典将泰语句子逐词翻译成老挝语句子序列,得到候选的老挝语-泰语平行句对;
老挝语-泰语平行句对抽取模块:用于构建基于双向LSTM的老挝语-泰语平行句对分类模型,对候选的老挝语-泰语平行句对进行分类,把互译的老挝语-泰语平行句子抽取出来,从而获取老挝语-泰语双语平行句对;
老挝语-汉语平行语料构建模块:用于将获取得到的老挝语-泰语双语平行句对语料与已有的汉语-泰语平行语料以泰语为枢轴语言对老挝语和汉语进行匹配,构建老挝语-汉语双语平行语料库。
本发明的有益效果是:
老挝语是东南亚语言中资源稀缺的语种,直接从互联网上获取老-汉双语平行资源十分的困难,本发明提出以泰语为枢轴构建老-汉双语平行语料库的方法,利用老挝语-泰语之间的相似性,在汉-泰双语平行语料的基础上,通过词典翻译和神经网络模型分类,构建老-汉双语平行语料,以此来解决老挝语-汉语语料稀缺的问题,对老-汉双语语料库的构建具有一定的理论意义和实际应用价值。
附图说明
图1为本发明中的流程图;
图2为本发明中的老挝语-泰语句法相似性图;
图3为本发明中的对于翻译中一词多义现象图;
图4为本发明中的平行句子分类流程图;
图5为本发明中的装置结构图;
图6为本发明中总的方法流程框图。
具体实施方式
实施例1:如图1-6所示,一种以泰语为枢轴的老-汉双语语料库构建方法,包括如下步骤:
Step1、从现有的汉语-泰语平行语料数据中抽取泰语句子并进行泰语分词处理;
作为本发明的优选方案,所述步骤Step1的具体步骤:
Step1.1、从已有的汉语-泰语双语平行语料库中选取20-50个字符的泰语句子;
Step1.2、对选取的泰语句子可以使用昆明理工大学研发的东南亚小语种语言信息处理平台,网址为http://222.197.219.24:8099/做分词处理。
本发明考虑到泰语采取连书形式,没有分词,无法做基于词的翻译以及使用到模型中。因此,要通过泰语分词工具进行分词,得到分好词的泰语句子。
此优选方案设计是本发明的重要组成部分,主要为本发明提供语料及数据预处理过程,为后续的词典翻译及模型使用提供语料基础。
Step2、构建老挝语-泰语双语词典,并利用老挝语-泰语双语词典将泰语句子逐词翻译成老挝语句子序列,得到候选的老挝语-泰语平行句对;
作为本发明的优选方案,所述步骤Step2的具体步骤:
Step2.1、老挝语-泰语双语词典的构建:主要是以英语作为中间语言,在老挝语-英语的词典和泰语-英语词典的基础上,利用英语单词来对齐老挝语和泰语单词,以此构建老挝语-泰语双语词典;
Step2.2、人工分析了泰语和老挝语在句法结构上的相似性,由于老挝语-泰语在句子构成上基本保持一致,即词语顺序一致,如图2所示,所以可以利用词典逐个翻译生成候选老挝语-泰语平行句子;
具体的,将已获取的汉语-泰语双语平行句对中的泰语句子利用老挝语-泰语双语词典进行逐词翻译,由于存在一词多义的情况,在通过词典翻译时,就可能会生成多个语义不同的老挝语句子,从而得到候选的老挝语-泰语平行句对,如图3所示,其中候选的老挝语-泰语平行句对中,是一句泰语对应多句老挝语的多组句子,它不全是互译的。
此优选设计方案是获取老挝语-泰语候选平行句子的重要过程,分析和利用老挝语和泰语在构词等方面的相似性,通过构建的词典逐词翻译获取候选平行语料,为下一步通过模型抽取老挝语-泰语平行语料做准备。
Step3、构建基于双向LSTM的老挝语-泰语平行句对分类模型,对候选的老挝语-泰语平行句对进行分类,把互译的老挝语-泰语平行句子抽取出来,从而获取老挝语-泰语双语平行句对;
作为本发明的优选方案,所述步骤Step3的具体步骤:
Step3.1、人工构建基于句对齐的9483条老挝语-泰语平行语料;
本发明是在老挝语-泰语平行语料的基础上训练模型,因此,需要高质量的平行语料使得训练的模型更加有效。所以,采用人工的方式构建老挝语-泰语平行语料,确保训练模型的数据是完全准确的平行语料,以得到老挝语-泰语平行句对分类模型。
分析了泰语和老挝语在词语构成和读音上的相似性。在词语上,老挝语和泰语具有很多相似的词语,它们不仅在含义上相同,并且在书写上也是有很大的相似性的,比如,
Figure GDA0003613686710000061
(泰语)和
Figure GDA0003613686710000062
(老挝语)都表示“公司”的意思;
Figure GDA0003613686710000063
(泰语)和
Figure GDA0003613686710000064
(老挝语)都是“提前”的意思;
Figure GDA0003613686710000065
(泰语)和
Figure GDA0003613686710000066
(老挝语)表示“老板”。在读音上,泰语的“湄公河”
Figure GDA0003613686710000067
的读音是menamkong,老挝语的“湄公河”
Figure GDA0003613686710000068
读音同样是menamkong。根据以上例子可以看出,泰语和老挝语在词语上基本上书写是一样的,而且读音基本相同,可以利用这样的语言特点对句子进行表示。
Step3.2、因为老挝语和泰语在词语和读音上具有极大的相似性,可以将这两种相似语言的句子表示到共享的语义空间中,如图4所示,利用双向LSTM将构建的老挝语-泰语平行句对在共享语义空间中进行表征,双向LSTM与LSTM相比主要是弥补LSTM在对句子建模时从后到前的编码问题,可以更好的捕捉前向和后向的语义之间的关系。具体过程如下:
首先,利用嵌入矩阵和句子中词的one-hot向量来编码词向量,即:
Figure GDA0003613686710000071
其中E是嵌入矩阵,wk代表的是词表中第k个词的one-hot表示,i表示句子的序号。
在得到了向量表示后,将句子送入到双向LSTM中,并选择前向和后向两个方向上最后状态的向量作为最终表示向量:
Figure GDA0003613686710000072
Figure GDA0003613686710000073
得到了两个方向的最终状态向量后,将两个向量做拼接
Figure GDA0003613686710000074
得到最终表示。同理老挝语做同样的处理得到老挝语最终句子表示
Figure GDA0003613686710000075
Figure GDA0003613686710000076
Figure GDA0003613686710000077
Figure GDA0003613686710000078
其中,
Figure GDA0003613686710000079
表示泰语第i个句子在N状态的隐向量前向表示;
Figure GDA00036136867100000710
是表示泰语第i个句子在N-1状态的隐向量前向表示,
Figure GDA00036136867100000711
是第i个句子中N状态时泰语句子的词向量表示,LSTM表示LSTM激活函数;
Figure GDA00036136867100000712
表示泰语第i个句子在N状态的隐向量后向表示;
Figure GDA00036136867100000713
是表示泰语第i个句子在N+1状态的隐向量后向表示;
Figure GDA00036136867100000714
表示泰语第i个句子将两个方向得到的最终向量拼接得到第i句的句子向量表示;
Figure GDA00036136867100000715
表示老挝语第i个句子在N状态的隐向量前向表示;
Figure GDA00036136867100000716
是表示老挝语第i个句子在N-1状态的隐向量前向表示,
Figure GDA00036136867100000717
是第i个句子中N状态时老挝语句子的词向量表示;
Figure GDA00036136867100000718
表示老挝语第i个句子在N状态的隐向量后向表示;
Figure GDA00036136867100000719
是表示老挝语第i个句子在N+1状态的隐向量后向表示;
Figure GDA0003613686710000081
表示老挝语第i个句子将两个方向得到的最终向量拼接得到第i句的句子向量表示;
为了获取两个句子的互译程度,将两个句子向量分别做向量点积和向量差处理捕获两个向量之间的匹配信息,得到匹配向量:
Figure GDA0003613686710000082
Figure GDA0003613686710000083
Figure GDA0003613686710000084
其中,
Figure GDA0003613686710000085
其分别表示通过老挝语和泰语的句子向量点积和向量差值的计算得到的包含句子匹配信息的匹配向量;hi是包含匹配信息的最终向量表示,W1,W2,b是双向LSTM模型的参数;
Step3.3、全连接层(fully connected layers,FC)在整个卷积神经网络中起到“分类器”的作用,在得到老挝语和泰语的句子匹配程度向量表示后,最后使用卷积神经网络的全连接层,通过sigmoid函数计算老挝语和泰语句子是平行句子的概率判断两个句子之间是否是平行的(互译的);
p(yi=1|hi)=σ(W3hi+c)
其中,p(yi=1|hi)表示在得到的向量hi的条件下两个句子互译的概率值,yi=1即表示两个句子是平行的(互译),W3,c是卷积神经网络模型参数,σ是激活函数;
Step3.4、使用如下交叉熵损失作为损失函数,迭代了15次,更新双向LSTM模型、卷积神经网络模型的参数,训练双向LSTM模型、卷积神经网络模型,即训练老挝语-泰语平行句对分类模型,然后通过训练好的老挝语-泰语平行句对分类模型,对候选的老挝语-泰语平行句对进行分类,把互译的老挝语-泰语平行句子抽取出来,从而获取老挝语-泰语双语平行句对;
其中损失函数如下:
Figure GDA0003613686710000086
其中,yi=1或yi=0,yi=1表示两个老挝语和泰语的句子是平行的,yi=0表示两个老挝语和泰语的句子是不平行的,n代表训练模型中正样本即平行句子的数量,m代表训练模型中负样本即不平行的句子的数量。
模型的训练中使用了人工构建的9483条老挝语-泰语双语平行语料,并做好分词,然后分为训练集和测试集,其中训练集8883条,测试集600条,测试集用来测试模型训练的结果。
Step4、将获取得到的老挝语-泰语双语平行句对语料与已有的汉语-泰语平行语料以泰语为枢轴语言对老挝语和汉语进行匹配,构建老挝语-汉语双语平行语料库。
在用老挝语-泰语平行句对分类模型对老-泰双语平行句子分类中,本发明采用F1值来评价模型的好坏,具体公式如下:
Figure GDA0003613686710000091
Figure GDA0003613686710000092
Figure GDA0003613686710000093
其中TP是把原来的正类预测成正类,FN是把原来的正类预测为负类,FP是把负类预测为正类。F1值是精确率和召回率的调和均值。
为了比较老挝语-泰语平行句对分类模型和传统机器学习方法在平行句子分类上的效果,将本发明的老挝语-泰语平行句对分类模型与几种常用机器学习模型做了对比,如表1所示。
表1:平行句分类模型结果对比
编号 模型 F1值(%)
1 SVM 68.78
2 LR 65.04
3 Random forest 51.49
4 Gbdt 60.03
5 老挝语-泰语平行句对分类模型 71.30
从表1结果可以看出,利用本发明老挝语-泰语平行句对分类模型对平行句子进行分类时,准确性比利用机器学习的方法进行分类时要好,从而获取的老挝语-泰语双语平行句对的准确性就高,再与现有的汉语-泰语平行语料以泰语为枢轴语言对老挝语和汉语进行匹配,构建的老挝语-汉语双语平行语料准确性高。
参见图5,本发明提供一种以泰语为枢轴的老-汉双语语料库构建装置,包括数据预处理模块、词典翻译模块、老挝语-泰语平行句对抽取模块、老挝语-汉语平行语料构建模块;
数据预处理模块:用于从现有的汉语-泰语平行语料数据中抽取泰语句子并进行泰语分词处理;
词典翻译模块:用于构建老挝语-泰语双语词典,并利用老挝语-泰语双语词典将泰语句子逐词翻译成老挝语句子序列,得到候选的老挝语-泰语平行句对;
老挝语-泰语平行句对抽取模块:用于构建基于双向LSTM的老挝语-泰语平行句对分类模型,对候选的老挝语-泰语平行句对进行分类,把互译的老挝语-泰语平行句子抽取出来,从而获取老挝语-泰语双语平行句对;
老挝语-汉语平行语料构建模块:用于将获取得到的老挝语-泰语双语平行句对语料与已有的汉语-泰语平行语料以泰语为枢轴语言对老挝语和汉语进行匹配,构建老挝语-汉语双语平行语料库。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (3)

1.一种以泰语为枢轴的老-汉双语语料库构建方法,其特征在于:包括如下步骤:
Step1、从现有的汉语-泰语平行语料数据中抽取泰语句子并进行泰语分词处理;
Step2、构建老挝语-泰语双语词典,并利用老挝语-泰语双语词典将泰语句子逐词翻译成老挝语句子序列,得到候选的老挝语-泰语平行句对;
Step3、构建基于双向LSTM的老挝语-泰语平行句对分类模型,对候选的老挝语-泰语平行句对进行分类,把互译的老挝语-泰语平行句子抽取出来,从而获取老挝语-泰语双语平行句对;
Step4、将获取得到的老挝语-泰语双语平行句对语料与已有的汉语-泰语平行语料以泰语为枢轴语言对老挝语和汉语进行匹配,构建老挝语-汉语双语平行语料库;
所述步骤Step2的具体步骤:
Step2.1、老挝语-泰语双语词典的构建:主要是以英语作为中间语言,在老挝语-英语的词典和泰语-英语词典的基础上,利用英语单词来对齐老挝语和泰语单词,以此构建老挝语-泰语双语词典;
Step2.2、由于老挝语-泰语极其相似,将已获取的汉语-泰语双语平行句对中的泰语句子利用老挝语-泰语双语词典进行逐词翻译,由于存在一词多义的情况,在通过词典翻译时,就可能会生成多个语义不同的老挝语句子,从而得到候选的老挝语-泰语平行句对,其中候选的老挝语-泰语平行句对中,是一句泰语对应多句老挝语的多组句子,它不全是互译的;
所述步骤Step3的具体步骤:
Step3.1、人工构建基于句对齐的老挝语-泰语平行语料;
Step3.2、因为老挝语和泰语在词语和读音上具有极大的相似性,因此利用双向LSTM将构建的老挝语-泰语平行句对在共享语义空间中进行表征,具体是使用双向LSTM得到前后向的状态向量,并做拼接得到共同语义空间中的句子向量表示,即:
Figure FDA0003613686700000011
Figure FDA0003613686700000021
Figure FDA0003613686700000022
Figure FDA0003613686700000023
Figure FDA0003613686700000024
Figure FDA0003613686700000025
其中,
Figure FDA0003613686700000026
表示泰语第i个句子在N状态的隐向量前向表示;
Figure FDA0003613686700000027
是表示泰语第i个句子在N-1状态的隐向量前向表示,
Figure FDA0003613686700000028
是第i个句子中N状态时泰语句子的词向量表示,LSTM表示LSTM激活函数;
Figure FDA0003613686700000029
表示泰语第i个句子在N状态的隐向量后向表示;
Figure FDA00036136867000000210
是表示泰语第i个句子在N+1状态的隐向量后向表示;
Figure FDA00036136867000000211
表示泰语第i个句子将两个方向得到的最终向量拼接得到第i句的句子向量表示;
Figure FDA00036136867000000212
表示老挝语第i个句子在N状态的隐向量前向表示;
Figure FDA00036136867000000213
是表示老挝语第i个句子在N-1状态的隐向量前向表示,
Figure FDA00036136867000000214
是第i个句子中N状态时老挝语句子的词向量表示;
Figure FDA00036136867000000215
表示老挝语第i个句子在N状态的隐向量后向表示;
Figure FDA00036136867000000216
是表示老挝语第i个句子在N+1状态的隐向量后向表示;
Figure FDA00036136867000000217
表示老挝语第i个句子将两个方向得到的最终向量拼接得到第i句的句子向量表示;
然后利用向量点积和向量差捕获两个向量之间的匹配信息,得到匹配向量:
Figure FDA00036136867000000218
Figure FDA00036136867000000219
Figure FDA00036136867000000220
其中,
Figure FDA00036136867000000221
其分别表示通过老挝语和泰语的句子向量点积和向量差值的计算得到的包含句子匹配信息的匹配向量;hi是包含匹配信息的最终向量表示,W1,W2,b是双向LSTM模型的参数;
Step3.3、最后使用卷积神经网络的全连接层,通过sigmoid函数计算老挝语和泰语句子是平行句子的概率判断两个句子之间是否是互译的;
p(yi=1|hi)=σ(W3hi+c)
其中,p(yi=1|hi)表示在得到的向量hi的条件下两个句子互译的概率值,yi=1即表示两个句子互译,W3,c是卷积神经网络模型参数,σ是激活函数;
Step3.4、使用如下交叉熵损失作为损失函数,多次迭代,更新双向LSTM模型、卷积神经网络模型的参数,训练双向LSTM模型、卷积神经网络模型,即训练老挝语-泰语平行句对分类模型,然后通过训练好的老挝语-泰语平行句对分类模型,对候选的老挝语-泰语平行句对进行分类,把互译的老挝语-泰语平行句子抽取出来,从而获取老挝语-泰语双语平行句对;
其中损失函数如下:
Figure FDA0003613686700000031
其中,yi=1或yi=0,yi=1表示两个老挝语和泰语的句子是平行的,yi=0表示两个老挝语和泰语的句子是不平行的,n代表训练模型中正样本即平行句子的数量,m代表训练模型中负样本即不平行的句子的数量。
2.根据权利要求1所述的以泰语为枢轴的老-汉双语语料库构建方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、从已有的汉语-泰语双语平行语料库中选取20-50个字符的泰语句子;
Step1.2、对选取的泰语句子进行分词处理。
3.一种以泰语为枢轴的老-汉双语语料库构建装置,其特征在于:包括数据预处理模块、词典翻译模块、老挝语-泰语平行句对抽取模块、老挝语-汉语平行语料构建模块;
数据预处理模块:用于从现有的汉语-泰语平行语料数据中抽取泰语句子并进行泰语分词处理;
词典翻译模块:用于构建老挝语-泰语双语词典,并利用老挝语-泰语双语词典将泰语句子逐词翻译成老挝语句子序列,得到候选的老挝语-泰语平行句对;
老挝语-泰语平行句对抽取模块:用于构建基于双向LSTM的老挝语-泰语平行句对分类模型,对候选的老挝语-泰语平行句对进行分类,把互译的老挝语-泰语平行句子抽取出来,从而获取老挝语-泰语双语平行句对;
老挝语-汉语平行语料构建模块:用于将获取得到的老挝语-泰语双语平行句对语料与已有的汉语-泰语平行语料以泰语为枢轴语言对老挝语和汉语进行匹配,构建老挝语-汉语双语平行语料库;
词典翻译模块具体包括:
Step2.1、老挝语-泰语双语词典的构建:主要是以英语作为中间语言,在老挝语-英语的词典和泰语-英语词典的基础上,利用英语单词来对齐老挝语和泰语单词,以此构建老挝语-泰语双语词典;
Step2.2、由于老挝语-泰语极其相似,将已获取的汉语-泰语双语平行句对中的泰语句子利用老挝语-泰语双语词典进行逐词翻译,由于存在一词多义的情况,在通过词典翻译时,就可能会生成多个语义不同的老挝语句子,从而得到候选的老挝语-泰语平行句对,其中候选的老挝语-泰语平行句对中,是一句泰语对应多句老挝语的多组句子,它不全是互译的;
老挝语-泰语平行句对抽取模块具体包括:
Step3.1、人工构建基于句对齐的老挝语-泰语平行语料;
Step3.2、因为老挝语和泰语在词语和读音上具有极大的相似性,因此利用双向LSTM将构建的老挝语-泰语平行句对在共享语义空间中进行表征,具体是使用双向LSTM得到前后向的状态向量,并做拼接得到共同语义空间中的句子向量表示,即:
Figure FDA0003613686700000041
Figure FDA0003613686700000042
Figure FDA0003613686700000043
Figure FDA0003613686700000044
Figure FDA0003613686700000051
Figure FDA0003613686700000052
其中,
Figure FDA0003613686700000053
表示泰语第i个句子在N状态的隐向量前向表示;
Figure FDA0003613686700000054
是表示泰语第i个句子在N-1状态的隐向量前向表示,
Figure FDA0003613686700000055
是第i个句子中N状态时泰语句子的词向量表示,LSTM表示LSTM激活函数;
Figure FDA0003613686700000056
表示泰语第i个句子在N状态的隐向量后向表示;
Figure FDA0003613686700000057
是表示泰语第i个句子在N+1状态的隐向量后向表示;
Figure FDA0003613686700000058
表示泰语第i个句子将两个方向得到的最终向量拼接得到第i句的句子向量表示;
Figure FDA0003613686700000059
表示老挝语第i个句子在N状态的隐向量前向表示;
Figure FDA00036136867000000510
是表示老挝语第i个句子在N-1状态的隐向量前向表示,
Figure FDA00036136867000000511
是第i个句子中N状态时老挝语句子的词向量表示;
Figure FDA00036136867000000512
表示老挝语第i个句子在N状态的隐向量后向表示;
Figure FDA00036136867000000513
是表示老挝语第i个句子在N+1状态的隐向量后向表示;
Figure FDA00036136867000000514
表示老挝语第i个句子将两个方向得到的最终向量拼接得到第i句的句子向量表示;
然后利用向量点积和向量差捕获两个向量之间的匹配信息,得到匹配向量:
Figure FDA00036136867000000515
Figure FDA00036136867000000516
Figure FDA00036136867000000517
其中,
Figure FDA00036136867000000518
其分别表示通过老挝语和泰语的句子向量点积和向量差值的计算得到的包含句子匹配信息的匹配向量;hi是包含匹配信息的最终向量表示,W1,W2,b是双向LSTM模型的参数;
Step3.3、最后使用卷积神经网络的全连接层,通过sigmoid函数计算老挝语和泰语句子是平行句子的概率判断两个句子之间是否是互译的;
p(yi=1|hi)=σ(W3hi+c)
其中,p(yi=1|hi)表示在得到的向量hi的条件下两个句子互译的概率值,yi=1即表示两个句子互译,W3,c是卷积神经网络模型参数,σ是激活函数;
Step3.4、使用如下交叉熵损失作为损失函数,多次迭代,更新双向LSTM模型、卷积神经网络模型的参数,训练双向LSTM模型、卷积神经网络模型,即训练老挝语-泰语平行句对分类模型,然后通过训练好的老挝语-泰语平行句对分类模型,对候选的老挝语-泰语平行句对进行分类,把互译的老挝语-泰语平行句子抽取出来,从而获取老挝语-泰语双语平行句对;
其中损失函数如下:
Figure FDA0003613686700000061
其中,yi=1或yi=0,yi=1表示两个老挝语和泰语的句子是平行的,yi=0表示两个老挝语和泰语的句子是不平行的,n代表训练模型中正样本即平行句子的数量,m代表训练模型中负样本即不平行的句子的数量。
CN201910856645.8A 2019-09-11 2019-09-11 一种以泰语为枢轴的老-汉双语语料库构建方法及装置 Active CN110717341B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910856645.8A CN110717341B (zh) 2019-09-11 2019-09-11 一种以泰语为枢轴的老-汉双语语料库构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910856645.8A CN110717341B (zh) 2019-09-11 2019-09-11 一种以泰语为枢轴的老-汉双语语料库构建方法及装置

Publications (2)

Publication Number Publication Date
CN110717341A CN110717341A (zh) 2020-01-21
CN110717341B true CN110717341B (zh) 2022-06-14

Family

ID=69209837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910856645.8A Active CN110717341B (zh) 2019-09-11 2019-09-11 一种以泰语为枢轴的老-汉双语语料库构建方法及装置

Country Status (1)

Country Link
CN (1) CN110717341B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287688B (zh) * 2020-09-17 2022-02-11 昆明理工大学 融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置
CN113627150B (zh) * 2021-07-01 2022-12-20 昆明理工大学 基于语言相似性的迁移学习平行句对抽取方法及装置
CN114417807B (zh) * 2022-01-24 2023-09-22 中国电子科技集团公司第五十四研究所 面向有无人协同场景的类人语言描述表达方法
CN115329785B (zh) * 2022-10-15 2023-01-20 小语智能信息科技(云南)有限公司 融入音素特征的英-泰-老多语言神经机器翻译方法及装置
CN116822495B (zh) * 2023-08-31 2023-11-03 小语智能信息科技(云南)有限公司 基于对比学习的汉-老、泰平行句对抽取方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855263A (zh) * 2011-06-30 2013-01-02 富士通株式会社 一种对双语语料库进行句子对齐的方法及装置
US9348809B1 (en) * 2015-02-02 2016-05-24 Linkedin Corporation Modifying a tokenizer based on pseudo data for natural language processing
CN108363704A (zh) * 2018-03-02 2018-08-03 北京理工大学 一种基于统计短语表的神经网络机器翻译语料扩展方法
CN108491383A (zh) * 2018-03-14 2018-09-04 昆明理工大学 一种基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法
CN108549629A (zh) * 2018-03-19 2018-09-18 昆明理工大学 一种结合相似度和图匹配的老-汉双语句子对齐方法
CN109783809A (zh) * 2018-12-22 2019-05-21 昆明理工大学 一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法
CN109885686A (zh) * 2019-02-20 2019-06-14 延边大学 一种融合主题信息和BiLSTM-CNN的多语种文本分类方法
CN110083826A (zh) * 2019-03-21 2019-08-02 昆明理工大学 一种基于Transformer模型的老汉双语对齐方法
CN110110061A (zh) * 2019-04-26 2019-08-09 同济大学 基于双语词向量的低资源语种实体抽取方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855263A (zh) * 2011-06-30 2013-01-02 富士通株式会社 一种对双语语料库进行句子对齐的方法及装置
US9348809B1 (en) * 2015-02-02 2016-05-24 Linkedin Corporation Modifying a tokenizer based on pseudo data for natural language processing
CN108363704A (zh) * 2018-03-02 2018-08-03 北京理工大学 一种基于统计短语表的神经网络机器翻译语料扩展方法
CN108491383A (zh) * 2018-03-14 2018-09-04 昆明理工大学 一种基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法
CN108549629A (zh) * 2018-03-19 2018-09-18 昆明理工大学 一种结合相似度和图匹配的老-汉双语句子对齐方法
CN109783809A (zh) * 2018-12-22 2019-05-21 昆明理工大学 一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法
CN109885686A (zh) * 2019-02-20 2019-06-14 延边大学 一种融合主题信息和BiLSTM-CNN的多语种文本分类方法
CN110083826A (zh) * 2019-03-21 2019-08-02 昆明理工大学 一种基于Transformer模型的老汉双语对齐方法
CN110110061A (zh) * 2019-04-26 2019-08-09 同济大学 基于双语词向量的低资源语种实体抽取方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Multi-language online handwriting recognition;Keysers Daniel 等;《IEEE transactions on pattern analysis and machine intelligence》;20160525;第39卷(第6期);1180-1194 *
Research on the Recognition of Offline Handwritten New Tai Lue Characters Based on Bidirectional LSTM;Wang Yongqiang 等;《International Conference on Network, Communication, Computer Engineering》;20180531;第147卷;1115-1123 *
以泰语为枢轴的老—汉双语语料库构建方法研究;聂男;《中国优秀博硕士学位论文全文数据库(硕士)哲学与人文科学辑》;20210115(第01期);F085-1599 *
半监督学习的老挝语词性标注方法研究;杨蓓 等;《计算机科学》;20160915;第43卷(第9期);103-106 *

Also Published As

Publication number Publication date
CN110717341A (zh) 2020-01-21

Similar Documents

Publication Publication Date Title
CN110717341B (zh) 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN108614875B (zh) 基于全局平均池化卷积神经网络的中文情感倾向性分类方法
CN109065032B (zh) 一种基于深度卷积神经网络的外部语料库语音识别方法
CN106970910B (zh) 一种基于图模型的关键词提取方法及装置
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN111061861B (zh) 一种基于XLNet的文本摘要自动生成方法
CN110619043A (zh) 基于动态词向量的自动文本摘要生成方法
CN112016320A (zh) 基于数据增强的英文标点符号添加方法和系统及设备
CN112561718A (zh) 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法
Huang et al. End-to-end sequence labeling via convolutional recurrent neural network with a connectionist temporal classification layer
CN110851601A (zh) 基于分层注意力机制的跨领域情感分类系统及方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN111581943A (zh) 一种基于句子关联图的汉越双语多文档新闻观点句识别方法
CN115510863A (zh) 一种面向问句匹配任务的数据增强方法
CN111553157A (zh) 一种基于实体替换的对话意图识别方法
Bigot et al. Person name recognition in ASR outputs using continuous context models
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN112632272B (zh) 基于句法分析的微博情感分类方法和系统
Zhao et al. Tibetan Multi-Dialect Speech and Dialect Identity Recognition.
CN111159405B (zh) 基于背景知识的讽刺检测方法
Zhao et al. Tibetan multi-dialect speech recognition using latent regression Bayesian network and end-to-end mode
Sen et al. Bangla natural language processing: A comprehensive review of classical machine learning and deep learning based methods
CN114611529B (zh) 意图识别方法和装置、电子设备及存储介质
CN115934948A (zh) 一种基于知识增强的药物实体关系联合抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant