CN110717341A - 一种以泰语为枢轴的老-汉双语语料库构建方法及装置 - Google Patents
一种以泰语为枢轴的老-汉双语语料库构建方法及装置 Download PDFInfo
- Publication number
- CN110717341A CN110717341A CN201910856645.8A CN201910856645A CN110717341A CN 110717341 A CN110717341 A CN 110717341A CN 201910856645 A CN201910856645 A CN 201910856645A CN 110717341 A CN110717341 A CN 110717341A
- Authority
- CN
- China
- Prior art keywords
- thai
- laos
- sentence
- parallel
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000013145 classification model Methods 0.000 claims abstract description 21
- 230000011218 segmentation Effects 0.000 claims abstract description 18
- 238000010276 construction Methods 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 81
- 230000002457 bidirectional effect Effects 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 18
- 238000013519 translation Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 6
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及以泰语为枢轴的老‑汉双语语料库构建方法及装置,属自然语言处理领域。本发明先对汉语‑泰语平行语料数据进行泰语分词处理;构建老挝语‑泰语双语词典,并利用其将泰语句子逐词翻译成老挝语句子序列,得到候选的老挝语‑泰语平行句对;构建基于双向LSTM的老挝语‑泰语平行句对分类模型,对候选的老挝语‑泰语平行句对进行分类,获取老挝语‑泰语双语平行句对;以泰语为枢轴语言对老挝语和汉语进行匹配,构建老挝语‑汉语双语平行语料库。并根据上述步骤功能模块化制成以泰语为枢轴语言的老‑汉双语平行语料库构建装置,本发明解决了老挝语‑汉语语料稀缺的问题,对老‑汉双语语料库的构建具有一定的理论意义和实际应用价值。
Description
技术领域
本发明涉及一种以泰语为枢轴的老-汉双语语料库构建方法及装置,属于自然语言处理技术领域。
背景技术
语料库建设是自然语言处理研究工作的前提,老-汉双语语料库是开展汉-老机器翻译及跨语言检索的重要数据资源,而老挝语是东南亚语言中资源较为稀缺的语言,老-汉双语平行资源较为稀缺,直接从互联网上获取老-汉双语平行资源存在较大困难。
老挝语和泰语都属于汉藏语系壮侗语族壮傣语支,基本词汇几乎相同或相似,句法结构上也有很大的相似性,而汉-泰平行语料又相对较容易获取,所以可以利用老挝语和泰语的相似性,获取老-泰平行句对,以泰语为枢轴的基础上构建老-汉双语平行语料。
发明内容
本发明提供了一种以泰语为枢轴的老-汉双语语料库构建方法及装置,以用于构建老挝语-汉语双语平行语料库。
本发明的技术方案是:一种以泰语为枢轴的老-汉双语语料库构建方法,包括如下步骤:
Step1、从现有的汉语-泰语平行语料数据中抽取泰语句子并进行泰语分词处理;
Step2、构建老挝语-泰语双语词典,并利用老挝语-泰语双语词典将泰语句子逐词翻译成老挝语句子序列,得到候选的老挝语-泰语平行句对;
Step3、构建基于双向LSTM的老挝语-泰语平行句对分类模型,对候选的老挝语-泰语平行句对进行分类,把互译的老挝语-泰语平行句子抽取出来,从而获取老挝语-泰语双语平行句对;
Step4、将获取得到的老挝语-泰语双语平行句对语料与已有的汉语-泰语平行语料以泰语为枢轴语言对老挝语和汉语进行匹配,构建老挝语-汉语双语平行语料库。
进一步地,所述步骤Step1的具体步骤为:
Step1.1、从已有的汉语-泰语双语平行语料库中选取20-50个字符的泰语句子;
Step1.2、对选取的泰语句子进行分词处理,分词工具使用昆明理工大学研发的东南亚小语种语言信息处理平台,网址为http://222.197.219.24:8099/。
本发明考虑到泰语采取连书形式,没有分词,无法做基于词的翻译以及使用到模型中。因此,要通过泰语分词工具进行分词,得到分好词的泰语句子。
此优选方案设计是本发明的重要组成部分,主要为本发明提供语料及数据预处理过程,为后续的词典翻译及模型使用提供语料基础。
进一步地,所述步骤Step2的具体步骤:
Step2.1、老挝语-泰语双语词典的构建:主要是以英语作为中间语言,在老挝语-英语的词典和泰语-英语词典的基础上,利用英语单词来对齐老挝语和泰语单词,以此构建老挝语-泰语双语词典;
Step2.2、由于老挝语-泰语极其相似,将已获取的汉语-泰语双语平行句对中的泰语句子利用老挝语-泰语双语词典进行逐词翻译,由于存在一词多义的情况,在通过词典翻译时,就可能会生成多个语义不同的老挝语句子,从而得到候选的老挝语-泰语平行句对,其中候选的老挝语-泰语平行句对中,是一句泰语对应多句老挝语的多组句子,它不全是互译的。
此优选设计方案是获取老挝语-泰语候选平行句子的重要过程,分析和利用老挝语和泰语在构词等方面的相似性,通过构建的词典逐词翻译获取候选平行语料,为下一步通过模型抽取老挝语-泰语平行语料做准备。
进一步地,所述步骤Step3的具体步骤:
Step3.1、人工构建基于句对齐的老挝语-泰语平行语料;
本发明是在老挝语-泰语平行语料的基础上训练模型,因此,需要高质量的平行语料使得训练的模型更加有效。所以,采用人工的方式构建老挝语-泰语平行语料,确保训练模型的数据是完全准确的平行语料,以得到老挝语-泰语平行句对分类模型。
Step3.2、因为老挝语和泰语在词语和读音上具有极大的相似性,因此利用双向LSTM将构建的老挝语-泰语平行句对在共享语义空间中进行表征,具体是使用双向LSTM得到前后向的状态向量,并做拼接得到共同语义空间中的句子向量表示,即:
表示第i个句子将两个方向得到的最终向量拼接得到第i句的句子向量表示;
表示第i个句子将两个方向得到的最终向量拼接得到第i句的句子向量表示;
然后利用向量点积和向量差捕获两个向量之间的匹配信息,得到匹配向量:
其中,其分别表示通过老挝语和泰语的句子向量点积和向量差值的计算得到的包含句子匹配信息的匹配向量;hi是包含匹配信息的最终向量表示,W1,W2,b是双向LSTM模型的参数;
Step3.3、最后使用卷积神经网络的全连接层,通过sigmoid函数计算老挝语和泰语句子是平行句子的概率判断两个句子之间是否是互译的;
p(yi=1|hi)=σ(W3hi+c)
其中,p(yi=1|hi)表示在得到的向量hi的条件下两个句子互译的概率值,yi=1即表示两个句子互译,W3,c是卷积神经网络模型参数,σ是激活函数;
Step3.4、使用如下交叉熵损失作为损失函数,多次迭代,更新双向LSTM模型、卷积神经网络模型的参数,训练双向LSTM模型、卷积神经网络模型,即训练老挝语-泰语平行句对分类模型,然后通过训练好的老挝语-泰语平行句对分类模型,对候选的老挝语-泰语平行句对进行分类,把互译的老挝语-泰语平行句子抽取出来,从而获取老挝语-泰语双语平行句对;
其中损失函数如下:
其中,yi=1或yi=0,yi=1表示两个老挝语和泰语的句子是平行的,yi=0表示两个老挝语和泰语的句子是不平行的,n代表训练模型中正样本即平行句子的数量,m代表训练模型中负样本即不平行的句子的数量。
一种以泰语为枢轴的老-汉双语语料库构建装置,包括数据预处理模块、词典翻译模块、老挝语-泰语平行句对抽取模块、老挝语-汉语平行语料构建模块;
数据预处理模块:用于从现有的汉语-泰语平行语料数据中抽取泰语句子并进行泰语分词处理;
词典翻译模块:用于构建老挝语-泰语双语词典,并利用老挝语-泰语双语词典将泰语句子逐词翻译成老挝语句子序列,得到候选的老挝语-泰语平行句对;
老挝语-泰语平行句对抽取模块:用于构建基于双向LSTM的老挝语-泰语平行句对分类模型,对候选的老挝语-泰语平行句对进行分类,把互译的老挝语-泰语平行句子抽取出来,从而获取老挝语-泰语双语平行句对;
老挝语-汉语平行语料构建模块:用于将获取得到的老挝语-泰语双语平行句对语料与已有的汉语-泰语平行语料以泰语为枢轴语言对老挝语和汉语进行匹配,构建老挝语-汉语双语平行语料库。
本发明的有益效果是:
老挝语是东南亚语言中资源稀缺的语种,直接从互联网上获取老-汉双语平行资源十分的困难,本发明提出以泰语为枢轴构建老-汉双语平行语料库的方法,利用老挝语-泰语之间的相似性,在汉-泰双语平行语料的基础上,通过词典翻译和神经网络模型分类,构建老-汉双语平行语料,以此来解决老挝语-汉语语料稀缺的问题,对老-汉双语语料库的构建具有一定的理论意义和实际应用价值。
附图说明
图1为本发明中的流程图;
图2为本发明中的老挝语-泰语句法相似性图;
图3为本发明中的对于翻译中一词多义现象图;
图4为本发明中的平行句子分类流程图;
图5为本发明中的装置结构图;
图6为本发明中总的方法流程框图。
具体实施方式
实施例1:如图1-6所示,一种以泰语为枢轴的老-汉双语语料库构建方法,包括如下步骤:
Step1、从现有的汉语-泰语平行语料数据中抽取泰语句子并进行泰语分词处理;
作为本发明的优选方案,所述步骤Step1的具体步骤:
Step1.1、从已有的汉语-泰语双语平行语料库中选取20-50个字符的泰语句子;
Step1.2、对选取的泰语句子可以使用昆明理工大学研发的东南亚小语种语言信息处理平台,网址为http://222.197.219.24:8099/做分词处理。
本发明考虑到泰语采取连书形式,没有分词,无法做基于词的翻译以及使用到模型中。因此,要通过泰语分词工具进行分词,得到分好词的泰语句子。
此优选方案设计是本发明的重要组成部分,主要为本发明提供语料及数据预处理过程,为后续的词典翻译及模型使用提供语料基础。
Step2、构建老挝语-泰语双语词典,并利用老挝语-泰语双语词典将泰语句子逐词翻译成老挝语句子序列,得到候选的老挝语-泰语平行句对;
作为本发明的优选方案,所述步骤Step2的具体步骤:
Step2.1、老挝语-泰语双语词典的构建:主要是以英语作为中间语言,在老挝语-英语的词典和泰语-英语词典的基础上,利用英语单词来对齐老挝语和泰语单词,以此构建老挝语-泰语双语词典;
Step2.2、人工分析了泰语和老挝语在句法结构上的相似性,由于老挝语-泰语在句子构成上基本保持一致,即词语顺序一致,如图2所示,所以可以利用词典逐个翻译生成候选老挝语-泰语平行句子;
具体的,将已获取的汉语-泰语双语平行句对中的泰语句子利用老挝语-泰语双语词典进行逐词翻译,由于存在一词多义的情况,在通过词典翻译时,就可能会生成多个语义不同的老挝语句子,从而得到候选的老挝语-泰语平行句对,如图3所示,其中候选的老挝语-泰语平行句对中,是一句泰语对应多句老挝语的多组句子,它不全是互译的。
此优选设计方案是获取老挝语-泰语候选平行句子的重要过程,分析和利用老挝语和泰语在构词等方面的相似性,通过构建的词典逐词翻译获取候选平行语料,为下一步通过模型抽取老挝语-泰语平行语料做准备。
Step3、构建基于双向LSTM的老挝语-泰语平行句对分类模型,对候选的老挝语-泰语平行句对进行分类,把互译的老挝语-泰语平行句子抽取出来,从而获取老挝语-泰语双语平行句对;
作为本发明的优选方案,所述步骤Step3的具体步骤:
Step3.1、人工构建基于句对齐的9483条老挝语-泰语平行语料;
本发明是在老挝语-泰语平行语料的基础上训练模型,因此,需要高质量的平行语料使得训练的模型更加有效。所以,采用人工的方式构建老挝语-泰语平行语料,确保训练模型的数据是完全准确的平行语料,以得到老挝语-泰语平行句对分类模型。
分析了泰语和老挝语在词语构成和读音上的相似性。在词语上,老挝语和泰语具有很多相似的词语,它们不仅在含义上相同,并且在书写上也是有很大的相似性的,比如,(泰语)和(老挝语)都表示“公司”的意思;(泰语)和(老挝语)都是“提前”的意思;(泰语)和(老挝语)表示“老板”。在读音上,泰语的“湄公河”的读音是menamkong,老挝语的“湄公河”读音同样是menamkong。根据以上例子可以看出,泰语和老挝语在词语上基本上书写是一样的,而且读音基本相同,可以利用这样的语言特点对句子进行表示。
Step3.2、因为老挝语和泰语在词语和读音上具有极大的相似性,可以将这两种相似语言的句子表示到共享的语义空间中,如图4所示,利用双向LSTM将构建的老挝语-泰语平行句对在共享语义空间中进行表征,双向LSTM与LSTM相比主要是弥补LSTM在对句子建模时从后到前的编码问题,可以更好的捕捉前向和后向的语义之间的关系。具体过程如下:
首先,利用嵌入矩阵和句子中词的one-hot向量来编码词向量,即:
其中E是嵌入矩阵,wk代表的是词表中第k个词的one-hot表示,i表示句子的序号。
在得到了向量表示后,将句子送入到双向LSTM中,并选择前向和后向两个方向上最后状态的向量作为最终表示向量:
为了获取两个句子的互译程度,将两个句子向量分别做向量点积和向量差处理捕获两个向量之间的匹配信息,得到匹配向量:
Step3.3、全连接层(fully connected layers,FC)在整个卷积神经网络中起到“分类器”的作用,在得到老挝语和泰语的句子匹配程度向量表示后,最后使用卷积神经网络的全连接层,通过sigmoid函数计算老挝语和泰语句子是平行句子的概率判断两个句子之间是否是平行的(互译的);
p(yi=1|hi)=σ(W3hi+c)
其中,p(yi=1|hi)表示在得到的向量hi的条件下两个句子互译的概率值,yi=1即表示两个句子是平行的(互译),W3,c是卷积神经网络模型参数,σ是激活函数;
Step3.4、使用如下交叉熵损失作为损失函数,迭代了15次,更新双向LSTM模型、卷积神经网络模型的参数,训练双向LSTM模型、卷积神经网络模型,即训练老挝语-泰语平行句对分类模型,然后通过训练好的老挝语-泰语平行句对分类模型,对候选的老挝语-泰语平行句对进行分类,把互译的老挝语-泰语平行句子抽取出来,从而获取老挝语-泰语双语平行句对;
其中损失函数如下:
其中,yi=1或yi=0,yi=1表示两个老挝语和泰语的句子是平行的,yi=0表示两个老挝语和泰语的句子是不平行的,n代表训练模型中正样本即平行句子的数量,m代表训练模型中负样本即不平行的句子的数量。
模型的训练中使用了人工构建的9483条老挝语-泰语双语平行语料,并做好分词,然后分为训练集和测试集,其中训练集8883条,测试集600条,测试集用来测试模型训练的结果。
Step4、将获取得到的老挝语-泰语双语平行句对语料与已有的汉语-泰语平行语料以泰语为枢轴语言对老挝语和汉语进行匹配,构建老挝语-汉语双语平行语料库。
在用老挝语-泰语平行句对分类模型对老-泰双语平行句子分类中,本发明采用F1值来评价模型的好坏,具体公式如下:
其中TP是把原来的正类预测成正类,FN是把原来的正类预测为负类,FP是把负类预测为正类。F1值是精确率和召回率的调和均值。
为了比较老挝语-泰语平行句对分类模型和传统机器学习方法在平行句子分类上的效果,将本发明的老挝语-泰语平行句对分类模型与几种常用机器学习模型做了对比,如表1所示。
表1:平行句分类模型结果对比
编号 | 模型 | F1值(%) |
1 | SVM | 68.78 |
2 | LR | 65.04 |
3 | Random forest | 51.49 |
4 | Gbdt | 60.03 |
5 | 老挝语-泰语平行句对分类模型 | 71.30 |
从表1结果可以看出,利用本发明老挝语-泰语平行句对分类模型对平行句子进行分类时,准确性比利用机器学习的方法进行分类时要好,从而获取的老挝语-泰语双语平行句对的准确性就高,再与现有的汉语-泰语平行语料以泰语为枢轴语言对老挝语和汉语进行匹配,构建的老挝语-汉语双语平行语料准确性高。
参见图5,本发明提供一种以泰语为枢轴的老-汉双语语料库构建装置,包括数据预处理模块、词典翻译模块、老挝语-泰语平行句对抽取模块、老挝语-汉语平行语料构建模块;
数据预处理模块:用于从现有的汉语-泰语平行语料数据中抽取泰语句子并进行泰语分词处理;
词典翻译模块:用于构建老挝语-泰语双语词典,并利用老挝语-泰语双语词典将泰语句子逐词翻译成老挝语句子序列,得到候选的老挝语-泰语平行句对;
老挝语-泰语平行句对抽取模块:用于构建基于双向LSTM的老挝语-泰语平行句对分类模型,对候选的老挝语-泰语平行句对进行分类,把互译的老挝语-泰语平行句子抽取出来,从而获取老挝语-泰语双语平行句对;
老挝语-汉语平行语料构建模块:用于将获取得到的老挝语-泰语双语平行句对语料与已有的汉语-泰语平行语料以泰语为枢轴语言对老挝语和汉语进行匹配,构建老挝语-汉语双语平行语料库。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (5)
1.一种以泰语为枢轴的老-汉双语语料库构建方法,其特征在于:包括如下步骤:
Step1、从现有的汉语-泰语平行语料数据中抽取泰语句子并进行泰语分词处理;
Step2、构建老挝语-泰语双语词典,并利用老挝语-泰语双语词典将泰语句子逐词翻译成老挝语句子序列,得到候选的老挝语-泰语平行句对;
Step3、构建基于双向LSTM的老挝语-泰语平行句对分类模型,对候选的老挝语-泰语平行句对进行分类,把互译的老挝语-泰语平行句子抽取出来,从而获取老挝语-泰语双语平行句对;
Step4、将获取得到的老挝语-泰语双语平行句对语料与已有的汉语-泰语平行语料以泰语为枢轴语言对老挝语和汉语进行匹配,构建老挝语-汉语双语平行语料库。
2.根据权利要求1所述的以泰语为枢轴的老-汉双语语料库构建方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、从已有的汉语-泰语双语平行语料库中选取20-50个字符的泰语句子;
Step1.2、对选取的泰语句子进行分词处理。
3.根据权利要求1所述的以泰语为枢轴的老-汉双语语料库构建方法,其特征在于:所述步骤Step2的具体步骤:
Step2.1、老挝语-泰语双语词典的构建:主要是以英语作为中间语言,在老挝语-英语的词典和泰语-英语词典的基础上,利用英语单词来对齐老挝语和泰语单词,以此构建老挝语-泰语双语词典;
Step2.2、由于老挝语-泰语极其相似,将已获取的汉语-泰语双语平行句对中的泰语句子利用老挝语-泰语双语词典进行逐词翻译,由于存在一词多义的情况,在通过词典翻译时,就可能会生成多个语义不同的老挝语句子,从而得到候选的老挝语-泰语平行句对,其中候选的老挝语-泰语平行句对中,是一句泰语对应多句老挝语的多组句子,它不全是互译的。
4.根据权利要求1所述的以泰语为枢轴的老-汉双语语料库构建方法,其特征在于:所述步骤Step3的具体步骤:
Step3.1、人工构建基于句对齐的老挝语-泰语平行语料;
Step3.2、因为老挝语和泰语在词语和读音上具有极大的相似性,因此利用双向LSTM将构建的老挝语-泰语平行句对在共享语义空间中进行表征,具体是使用双向LSTM得到前后向的状态向量,并做拼接得到共同语义空间中的句子向量表示,即:
然后利用向量点积和向量差捕获两个向量之间的匹配信息,得到匹配向量:
Step3.3、最后使用卷积神经网络的全连接层,通过sigmoid函数计算老挝语和泰语句子是平行句子的概率判断两个句子之间是否是互译的;
p(yi=1|hi)=σ(W3hi+c)
其中,p(yi=1|hi)表示在得到的向量hi的条件下两个句子互译的概率值,yi=1即表示两个句子互译,W3,c是卷积神经网络模型参数,σ是激活函数;
Step3.4、使用如下交叉熵损失作为损失函数,多次迭代,更新双向LSTM模型、卷积神经网络模型的参数,训练双向LSTM模型、卷积神经网络模型,即训练老挝语-泰语平行句对分类模型,然后通过训练好的老挝语-泰语平行句对分类模型,对候选的老挝语-泰语平行句对进行分类,把互译的老挝语-泰语平行句子抽取出来,从而获取老挝语-泰语双语平行句对;
其中损失函数如下:
其中,yi=1或yi=0,yi=1表示两个老挝语和泰语的句子是平行的,yi=0表示两个老挝语和泰语的句子是不平行的,n代表训练模型中正样本即平行句子的数量,m代表训练模型中负样本即不平行的句子的数量。
5.一种以泰语为枢轴的老-汉双语语料库构建装置,其特征在于:包括数据预处理模块、词典翻译模块、老挝语-泰语平行句对抽取模块、老挝语-汉语平行语料构建模块;
数据预处理模块:用于从现有的汉语-泰语平行语料数据中抽取泰语句子并进行泰语分词处理;
词典翻译模块:用于构建老挝语-泰语双语词典,并利用老挝语-泰语双语词典将泰语句子逐词翻译成老挝语句子序列,得到候选的老挝语-泰语平行句对;
老挝语-泰语平行句对抽取模块:用于构建基于双向LSTM的老挝语-泰语平行句对分类模型,对候选的老挝语-泰语平行句对进行分类,把互译的老挝语-泰语平行句子抽取出来,从而获取老挝语-泰语双语平行句对;
老挝语-汉语平行语料构建模块:用于将获取得到的老挝语-泰语双语平行句对语料与已有的汉语-泰语平行语料以泰语为枢轴语言对老挝语和汉语进行匹配,构建老挝语-汉语双语平行语料库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910856645.8A CN110717341B (zh) | 2019-09-11 | 2019-09-11 | 一种以泰语为枢轴的老-汉双语语料库构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910856645.8A CN110717341B (zh) | 2019-09-11 | 2019-09-11 | 一种以泰语为枢轴的老-汉双语语料库构建方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110717341A true CN110717341A (zh) | 2020-01-21 |
CN110717341B CN110717341B (zh) | 2022-06-14 |
Family
ID=69209837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910856645.8A Active CN110717341B (zh) | 2019-09-11 | 2019-09-11 | 一种以泰语为枢轴的老-汉双语语料库构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110717341B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287688A (zh) * | 2020-09-17 | 2021-01-29 | 昆明理工大学 | 融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置 |
CN113627150A (zh) * | 2021-07-01 | 2021-11-09 | 昆明理工大学 | 基于语言相似性的迁移学习平行句对抽取方法及装置 |
CN114417807A (zh) * | 2022-01-24 | 2022-04-29 | 中国电子科技集团公司第五十四研究所 | 面向有无人协同场景的类人语言描述表达方法 |
CN115329785A (zh) * | 2022-10-15 | 2022-11-11 | 小语智能信息科技(云南)有限公司 | 融入音素特征的英-泰-老多语言神经机器翻译方法及装置 |
RU2790026C2 (ru) * | 2020-12-22 | 2023-02-14 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и сервер для обучения алгоритма машинного обучения для перевода |
CN116822495A (zh) * | 2023-08-31 | 2023-09-29 | 小语智能信息科技(云南)有限公司 | 基于对比学习的汉-老、泰平行句对抽取方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102855263A (zh) * | 2011-06-30 | 2013-01-02 | 富士通株式会社 | 一种对双语语料库进行句子对齐的方法及装置 |
US9348809B1 (en) * | 2015-02-02 | 2016-05-24 | Linkedin Corporation | Modifying a tokenizer based on pseudo data for natural language processing |
CN108363704A (zh) * | 2018-03-02 | 2018-08-03 | 北京理工大学 | 一种基于统计短语表的神经网络机器翻译语料扩展方法 |
CN108491383A (zh) * | 2018-03-14 | 2018-09-04 | 昆明理工大学 | 一种基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法 |
CN108549629A (zh) * | 2018-03-19 | 2018-09-18 | 昆明理工大学 | 一种结合相似度和图匹配的老-汉双语句子对齐方法 |
CN109783809A (zh) * | 2018-12-22 | 2019-05-21 | 昆明理工大学 | 一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法 |
CN109885686A (zh) * | 2019-02-20 | 2019-06-14 | 延边大学 | 一种融合主题信息和BiLSTM-CNN的多语种文本分类方法 |
CN110083826A (zh) * | 2019-03-21 | 2019-08-02 | 昆明理工大学 | 一种基于Transformer模型的老汉双语对齐方法 |
CN110110061A (zh) * | 2019-04-26 | 2019-08-09 | 同济大学 | 基于双语词向量的低资源语种实体抽取方法 |
-
2019
- 2019-09-11 CN CN201910856645.8A patent/CN110717341B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102855263A (zh) * | 2011-06-30 | 2013-01-02 | 富士通株式会社 | 一种对双语语料库进行句子对齐的方法及装置 |
US9348809B1 (en) * | 2015-02-02 | 2016-05-24 | Linkedin Corporation | Modifying a tokenizer based on pseudo data for natural language processing |
CN108363704A (zh) * | 2018-03-02 | 2018-08-03 | 北京理工大学 | 一种基于统计短语表的神经网络机器翻译语料扩展方法 |
CN108491383A (zh) * | 2018-03-14 | 2018-09-04 | 昆明理工大学 | 一种基于最大熵分类模型与泰语语法规则校正的泰语句子切分方法 |
CN108549629A (zh) * | 2018-03-19 | 2018-09-18 | 昆明理工大学 | 一种结合相似度和图匹配的老-汉双语句子对齐方法 |
CN109783809A (zh) * | 2018-12-22 | 2019-05-21 | 昆明理工大学 | 一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法 |
CN109885686A (zh) * | 2019-02-20 | 2019-06-14 | 延边大学 | 一种融合主题信息和BiLSTM-CNN的多语种文本分类方法 |
CN110083826A (zh) * | 2019-03-21 | 2019-08-02 | 昆明理工大学 | 一种基于Transformer模型的老汉双语对齐方法 |
CN110110061A (zh) * | 2019-04-26 | 2019-08-09 | 同济大学 | 基于双语词向量的低资源语种实体抽取方法 |
Non-Patent Citations (4)
Title |
---|
KEYSERS DANIEL 等: "Multi-language online handwriting recognition", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
WANG YONGQIANG 等: "Research on the Recognition of Offline Handwritten New Tai Lue Characters Based on Bidirectional LSTM", 《INTERNATIONAL CONFERENCE ON NETWORK, COMMUNICATION, COMPUTER ENGINEERING》 * |
杨蓓 等: "半监督学习的老挝语词性标注方法研究", 《计算机科学》 * |
聂男: "以泰语为枢轴的老—汉双语语料库构建方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)哲学与人文科学辑》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287688A (zh) * | 2020-09-17 | 2021-01-29 | 昆明理工大学 | 融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置 |
CN112287688B (zh) * | 2020-09-17 | 2022-02-11 | 昆明理工大学 | 融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置 |
RU2790026C2 (ru) * | 2020-12-22 | 2023-02-14 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и сервер для обучения алгоритма машинного обучения для перевода |
CN113627150A (zh) * | 2021-07-01 | 2021-11-09 | 昆明理工大学 | 基于语言相似性的迁移学习平行句对抽取方法及装置 |
CN113627150B (zh) * | 2021-07-01 | 2022-12-20 | 昆明理工大学 | 基于语言相似性的迁移学习平行句对抽取方法及装置 |
CN114417807A (zh) * | 2022-01-24 | 2022-04-29 | 中国电子科技集团公司第五十四研究所 | 面向有无人协同场景的类人语言描述表达方法 |
CN114417807B (zh) * | 2022-01-24 | 2023-09-22 | 中国电子科技集团公司第五十四研究所 | 面向有无人协同场景的类人语言描述表达方法 |
CN115329785A (zh) * | 2022-10-15 | 2022-11-11 | 小语智能信息科技(云南)有限公司 | 融入音素特征的英-泰-老多语言神经机器翻译方法及装置 |
CN116822495A (zh) * | 2023-08-31 | 2023-09-29 | 小语智能信息科技(云南)有限公司 | 基于对比学习的汉-老、泰平行句对抽取方法及装置 |
CN116822495B (zh) * | 2023-08-31 | 2023-11-03 | 小语智能信息科技(云南)有限公司 | 基于对比学习的汉-老、泰平行句对抽取方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110717341B (zh) | 2022-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717341B (zh) | 一种以泰语为枢轴的老-汉双语语料库构建方法及装置 | |
CN109213995B (zh) | 一种基于双语词嵌入的跨语言文本相似度评估技术 | |
CN108614875B (zh) | 基于全局平均池化卷积神经网络的中文情感倾向性分类方法 | |
CN110059188B (zh) | 一种基于双向时间卷积网络的中文情感分析方法 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN111061861B (zh) | 一种基于XLNet的文本摘要自动生成方法 | |
CN110414009B (zh) | 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置 | |
CN110619043A (zh) | 基于动态词向量的自动文本摘要生成方法 | |
CN112231472B (zh) | 融入领域术语词典的司法舆情敏感信息识别方法 | |
CN110489750A (zh) | 基于双向lstm-crf的缅甸语分词及词性标注方法及装置 | |
CN112016320A (zh) | 基于数据增强的英文标点符号添加方法和系统及设备 | |
CN112561718A (zh) | 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法 | |
Huang et al. | End-to-end sequence labeling via convolutional recurrent neural network with a connectionist temporal classification layer | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN111581943A (zh) | 一种基于句子关联图的汉越双语多文档新闻观点句识别方法 | |
CN115510863A (zh) | 一种面向问句匹配任务的数据增强方法 | |
CN111553157A (zh) | 一种基于实体替换的对话意图识别方法 | |
Bigot et al. | Person name recognition in ASR outputs using continuous context models | |
CN112632272A (zh) | 基于句法分析的微博情感分类方法和系统 | |
Zhao et al. | Tibetan Multi-Dialect Speech and Dialect Identity Recognition. | |
CN117332789A (zh) | 一种面向对话场景的语义分析方法及系统 | |
Sun | Analysis of Chinese machine translation training based on deep learning technology | |
CN115934948A (zh) | 一种基于知识增强的药物实体关系联合抽取方法及系统 | |
Suleiman et al. | Recurrent neural network techniques: Emphasis on use in neural machine translation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |