CN110362820B

CN110362820B - 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法

Info

Publication number: CN110362820B
Application number: CN201910520523.1A
Authority: CN
Inventors: 周兰江; 贾善崇; 张建安
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2019-06-17
Filing date: 2019-06-17
Publication date: 2022-11-01
Anticipated expiration: 2039-06-17
Also published as: CN110362820A

Abstract

本发明公开了一种基于Bi‑LSTM算法的老汉双语平行句子抽取方法，属于自然语言处理和机器学习技术领域。首先将篇章级对齐的语料作为输入，由于老挝语与中文的句子成分排序大致是一致的，所以先将篇章级的语料通过标点符号，处理为单个的对齐语句，之后将对齐的语句进行拆分，组成两个文本。这两个文本中包含一些非对齐的语句，之后将这些对齐的语句进行分词，分词之后，将两个文本组合为一个统一文本，因包含中文以及老挝语，以及是否为对齐的标志，作为训练数据，将得到的中文以及老挝语分词之后的句子作为Bi‑LSTM的输入，经过Bi‑LSTM的输出得到的结果，通过曼哈顿距离公式，计算两个句子的相似度，进而从篇章级的双语语料库中抽取出平行句对。

Description

一种基于Bi-LSTM算法的老汉双语平行句子抽取方法

技术领域

本发明涉及一种基于Bi-LSTM算法的老汉双语平行句子抽取方法，属于自然语言处理和机器学习技术领域。

背景技术

双语语料是统计机器翻译、跨语言检索、双语词典构建等研究领域的重要基础资源，双语语料的数量与质量很大程度上影响甚至决定了相关任务的最终结果。而平行句对的挖掘则是构建双语语料的关键技术，因而具有重要的研究价值。很多情况下，双语语料可以获得，但是得到的文本通常并不是以句子为单位对齐的，例如有些是以段落或者按照整篇文章来对齐的。这种情况下，就需要将这些不是以句子为单位对齐的语料整理成句子对齐格式，从而进行平行句对的抽取。

发明内容

本发明要解决的技术问题是提供一种基于Bi-LSTM算法的老汉双语平行句子抽取方法，用于解决从汉语-老挝语的对齐语料中抽取对齐语句,能够有效提高句子对齐的准确率.

本发明采用的技术方案是：一种基于Bi-LSTM算法的老汉双语平行句子抽取方法，具体步骤如下：

Step1，将汉-老双语篇章级对齐语料根据标点符号，将语料分成两个文本，一个老挝语文本，一个中文文本，其中，两个文本都是一行代表一个句子；

Step2，根据Step1得到的文本，将中文文本使用python编程进行分词，以及标点符号的处理，老挝语文本使用分词工具对齐分词，以及标点符号的处理；

Step3，通过编程，将Step2中处理过的两个文本组合成为一个统一的文本，其中统一的文本的内容格式为中文-老挝语-对齐标志，其中，对齐标志指如果两个句子是对齐的，标志为1，不对齐的标志为0，其中对齐的句子与不对齐的句子比例为1：3，且为打乱的句子；

Step4，将Step3得到的统一的文本中的句子进行词统计，将这些词统计为一个词表，不含有相同的词，并将句子进行词向量的转换；

Step5，通过对文本中中文-老挝语-对齐标志的分割，将‘中文-老挝语’和‘对齐标志’进行分割，将句子与标志分割开来，将词向量转换为可以被Bi-LSTM输入的矩阵；

Step6，输入到Bi-LSTM中，分别得到老挝语和中文的语义向量。将两个语义向量输入到计算相似度的函数中，求得两者的相似度。根据相似度值的大小，从篇章级的语料中得到最为相似的句子对。

具体地，所述step1中所述的篇章级对齐语料为双语对齐语句。

具体地，所述step1中老挝语文本和中文文本中的句子在两个文本中的位置是一一对应的。

具体地，所述step2所述的python编程是指通过python的jieba包，对中文文本进行分词，通过电子老挝语字典，对老挝语句子分词。

具体地，所述step3中的统一的文本是指将分好词的句子进行组合，将文本中的每一行分为三列：中文-老挝语-对齐标志，中间用”-”分割开。

具体地，所述step3中的打乱的句子是指将每一行的句子与下一行的句子是没有关联的。

具体地，所述步骤step4中的词向量转换是指将句子投入到python已经封装好的Word2vec函数中，进行词向量转换。

具体地，所述步骤step5中的矩阵，是将综合在一起的文本中的‘中文-老挝语’和‘对齐标志’分割开来，将这些数据通过构造矩阵，来将这些数据向量化，被Bi-LSTM 接收。

具体地，所述步骤step6中的计算相似度的函数为曼哈顿空间距离计算方法，通过计算两个字符串语义空间来计算相似度。

本发明的有益效果是：

(1)该基于Bi-LSTM算法的老汉双语对齐语句抽取方法中，该模型主要是使用了Bi-LSTM，相较于之前的模型，能够更好的使用句子中的上下文信息，同时框架更加简便。

(2)该基于Bi-LSTM算法的老汉双语对齐语句抽取方法中，融入老挝语语法特征以及中文的语法特征，通过深度学习可以自动识别出来，相比于人工识别，速度更快，泛化性更强，省时省力。

(3)该基于Bi-LSTM算法的老汉双语对齐语句抽取方法中，使用了深度学习算法，相较于传统统计方法，在特征提取的效果上有了比较不错的提高。

附图说明

图1为本发明中的流程图；

图2为本发明程序的流程结构；

图3是Bi-LSTM的结构。

具体实施方式

下面结合附图和具体实施例，对本发明做进一步的说明。

实施例1：如图1-3所示，一种基于Bi-LSTM算法的老汉双语平行句子抽取方法，具体步骤如下：

Step5，通过对文本中老挝语-中文-对齐标志的分割，将‘中文-老挝语’和‘对齐标志’进行分割，将句子与标志分割开来，将词向量转换为可以被Bi-LSTM输入的矩阵；

进一步地，所述step1中所述的篇章级对齐语料为双语对齐语句，不对齐的篇章级语料，是指没有经过人工翻译的完整中文和老挝语句子，两者是没有太大联系的句子。

进一步地，所述step1中老挝语文本和中文文本中的句子在两个文本中的位置是一一对应的，其中包括对齐的句子以及不对齐的句子，不能出现没有对应的情况。

进一步地，所述step2所述的python编程是指通过python的jieba包，对中文文本进行分词，通过电子老挝语字典，对老挝语句子分词。

进一步地，所述step3中的统一的文本是指将分好词的句子进行组合，将文本中的每一行分为三列：中文-老挝语-对齐标志，中间用”-”分割开。如以下双语对照表所示：

上图中，

对应的中文为“随后客舱乘务员为周围旅客重新安排了座位”。

进一步地，所述step3中的打乱的句子是指将每一行的句子与下一行的句子是没有关联的，可能连这两行是对齐的，也有可能是连这几行都是不对齐的句子。如以下双语对照表所示：

上表中，第二句、第三句老挝语对应的中文翻译表为：

进一步地，所述步骤step4中的词向量转换是指将句子投入到python已经封装好的Word2vec函数中，进行词向量转换。

进一步地，所述步骤step5中的矩阵，是将综合在一起的文本中的‘中文-老挝语’和‘对齐标志’分割开来，将这些数据通过构造矩阵，来将这些数据向量化，被 Bi-LSTM接收。

进一步地，所述步骤step6中的计算相似度的函数为曼哈顿空间距离计算方法，通过计算两个字符串语义空间来计算相似度。

需要说明的是，图2出现老挝语的中文译文是“老师教书”。

双语语料库最为作为自然语言研究领域的重要语言资源，语言信息处理的研究深入，在语料的获取，处理有了长足的进步。本发明主要融合了老挝语语言学特征到算法模型中，在模型的使用中选择了多种模型融合的方法，提高识别精度，本模型基于基于Bi-LSTM算法。首先将篇章级对齐的语料作为输入，由于老挝语与中文的句子排序大致是一致的，所以可以先将篇章级的语料处理为单个的对齐语句，之后将对齐的语句进行拆分。之后将这些对齐的语句进行分词，将分词的词语作为Bi-LSTM算法的输入，通过保留Bi-LSTM算法输出序列的输出结果，通过对输出结果的距离计算，得出句子之间的相似度，训练一个模型来对这些输入进行选择性地学习并且在模型输出时将输出序列进行关联，从而从双语语料库中抽取出平行句对。本发明在老挝语平行句对抽取上有一定的研究意义。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于Bi-LSTM算法的老汉双语平行句子抽取方法，其特征在于：具体步骤如下：

Step6，输入到Bi-LSTM中，分别得到老挝语和中文的语义向量，将两个语义向量输入到计算相似度的函数中，求得两者的相似度，根据相似度值的大小，从篇章级的语料中得到最为相似的句子对；

所述step1中老挝语文本和中文文本中的句子在两个文本中的位置是一一对应的，

所述step3中的打乱的句子是指将每一行的句子与下一行的句子是没有关联的，

所述step6中的计算相似度的函数为曼哈顿空间距离计算方法，通过计算两个字符串语义空间来计算相似度。

2.根据权利要求1所述的一种基于Bi-LSTM算法的老汉双语平行句子抽取方法，其特征在于：所述step1中所述的篇章级对齐语料为双语对齐语句。

3.根据权利要求1所述的一种基于Bi-LSTM算法的老汉双语平行句子抽取方法，其特征在于：所述step2所述的python编程是指通过python的jieba包，对中文文本进行分词，通过电子老挝语字典，对老挝语句子分词。

4.根据权利要求1所述的一种基于Bi-LSTM算法的老汉双语平行句子抽取方法，其特征在于：所述step3中的统一的文本是指将分好词的句子进行组合，将文本中的每一行分为三列：中文-老挝语-对齐标志，中间用”-”分割开。

5.根据权利要求1所述的一种基于Bi-LSTM算法的老汉双语平行句子抽取方法，其特征在于：所述step4中的词向量转换是指将句子投入到python已经封装好的Word2vec函数中，进行词向量转换。

6.根据权利要求1所述的一种基于Bi-LSTM算法的老汉双语平行句子抽取方法，其特征在于：所述step5中的矩阵，是将综合在一起的文本中的‘中文-老挝语’和‘对齐标志’分割开来，将这些数据通过构造矩阵，来将这些数据向量化，被Bi-LSTM接收。