CN110362820B - 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法 - Google Patents

一种基于Bi-LSTM算法的老汉双语平行句子抽取方法 Download PDF

Info

Publication number
CN110362820B
CN110362820B CN201910520523.1A CN201910520523A CN110362820B CN 110362820 B CN110362820 B CN 110362820B CN 201910520523 A CN201910520523 A CN 201910520523A CN 110362820 B CN110362820 B CN 110362820B
Authority
CN
China
Prior art keywords
sentences
chinese
text
laos
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910520523.1A
Other languages
English (en)
Other versions
CN110362820A (zh
Inventor
周兰江
贾善崇
张建安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201910520523.1A priority Critical patent/CN110362820B/zh
Publication of CN110362820A publication Critical patent/CN110362820A/zh
Application granted granted Critical
Publication of CN110362820B publication Critical patent/CN110362820B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于Bi‑LSTM算法的老汉双语平行句子抽取方法,属于自然语言处理和机器学习技术领域。首先将篇章级对齐的语料作为输入,由于老挝语与中文的句子成分排序大致是一致的,所以先将篇章级的语料通过标点符号,处理为单个的对齐语句,之后将对齐的语句进行拆分,组成两个文本。这两个文本中包含一些非对齐的语句,之后将这些对齐的语句进行分词,分词之后,将两个文本组合为一个统一文本,因包含中文以及老挝语,以及是否为对齐的标志,作为训练数据,将得到的中文以及老挝语分词之后的句子作为Bi‑LSTM的输入,经过Bi‑LSTM的输出得到的结果,通过曼哈顿距离公式,计算两个句子的相似度,进而从篇章级的双语语料库中抽取出平行句对。

Description

一种基于Bi-LSTM算法的老汉双语平行句子抽取方法
技术领域
本发明涉及一种基于Bi-LSTM算法的老汉双语平行句子抽取方法,属于自然语言处理和机器学习技术领域。
背景技术
双语语料是统计机器翻译、跨语言检索、双语词典构建等研究领域的重要基础资源,双语语料的数量与质量很大程度上影响甚至决定了相关任务的最终结果。而平行句对的挖掘则是构建双语语料的关键技术,因而具有重要的研究价值。很多情况下,双语语料可以获得,但是得到的文本通常并不是以句子为单位对齐的,例如有些是以段落或者按照整篇文章来对齐的。这种情况下,就需要将这些不是以句子为单位对齐的语料整理成句子对齐格式,从而进行平行句对的抽取。
发明内容
本发明要解决的技术问题是提供一种基于Bi-LSTM算法的老汉双语平行句子抽取方法,用于解决从汉语-老挝语的对齐语料中抽取对齐语句,能够有效提高句子对齐的准确率.
本发明采用的技术方案是:一种基于Bi-LSTM算法的老汉双语平行句子抽取方法,具体步骤如下:
Step1,将汉-老双语篇章级对齐语料根据标点符号,将语料分成两个文本,一个老挝语文本,一个中文文本,其中,两个文本都是一行代表一个句子;
Step2,根据Step1得到的文本,将中文文本使用python编程进行分词,以及标点符号的处理,老挝语文本使用分词工具对齐分词,以及标点符号的处理;
Step3,通过编程,将Step2中处理过的两个文本组合成为一个统一的文本,其中统一的文本的内容格式为中文-老挝语-对齐标志,其中,对齐标志指如果两个句子是对齐的,标志为1,不对齐的标志为0,其中对齐的句子与不对齐的句子比例为1:3,且为打乱的句子;
Step4,将Step3得到的统一的文本中的句子进行词统计,将这些词统计为一个词表,不含有相同的词,并将句子进行词向量的转换;
Step5,通过对文本中中文-老挝语-对齐标志的分割,将‘中文-老挝语’和‘对齐标志’进行分割,将句子与标志分割开来,将词向量转换为可以被Bi-LSTM输入的矩阵;
Step6,输入到Bi-LSTM中,分别得到老挝语和中文的语义向量。将两个语义向量输入到计算相似度的函数中,求得两者的相似度。根据相似度值的大小,从篇章级的语料中得到最为相似的句子对。
具体地,所述step1中所述的篇章级对齐语料为双语对齐语句。
具体地,所述step1中老挝语文本和中文文本中的句子在两个文本中的位置是一一对应的。
具体地,所述step2所述的python编程是指通过python的jieba包,对中文文本进行分词,通过电子老挝语字典,对老挝语句子分词。
具体地,所述step3中的统一的文本是指将分好词的句子进行组合,将文本中的每一行分为三列:中文-老挝语-对齐标志,中间用”-”分割开。
具体地,所述step3中的打乱的句子是指将每一行的句子与下一行的句子是没有关联的。
具体地,所述步骤step4中的词向量转换是指将句子投入到python已经封装好的Word2vec函数中,进行词向量转换。
具体地,所述步骤step5中的矩阵,是将综合在一起的文本中的‘中文-老挝语’和‘对齐标志’分割开来,将这些数据通过构造矩阵,来将这些数据向量化,被Bi-LSTM 接收。
具体地,所述步骤step6中的计算相似度的函数为曼哈顿空间距离计算方法,通过计算两个字符串语义空间来计算相似度。
本发明的有益效果是:
(1)该基于Bi-LSTM算法的老汉双语对齐语句抽取方法中,该模型主要是使用了Bi-LSTM,相较于之前的模型,能够更好的使用句子中的上下文信息,同时框架更加简便。
(2)该基于Bi-LSTM算法的老汉双语对齐语句抽取方法中,融入老挝语语法特征以及中文的语法特征,通过深度学习可以自动识别出来,相比于人工识别,速度更快,泛化性更强,省时省力。
(3)该基于Bi-LSTM算法的老汉双语对齐语句抽取方法中,使用了深度学习算法,相较于传统统计方法,在特征提取的效果上有了比较不错的提高。
附图说明
图1为本发明中的流程图;
图2为本发明程序的流程结构;
图3是Bi-LSTM的结构。
具体实施方式
下面结合附图和具体实施例,对本发明做进一步的说明。
实施例1:如图1-3所示,一种基于Bi-LSTM算法的老汉双语平行句子抽取方法,具体步骤如下:
Step1,将汉-老双语篇章级对齐语料根据标点符号,将语料分成两个文本,一个老挝语文本,一个中文文本,其中,两个文本都是一行代表一个句子;
Step2,根据Step1得到的文本,将中文文本使用python编程进行分词,以及标点符号的处理,老挝语文本使用分词工具对齐分词,以及标点符号的处理;
Step3,通过编程,将Step2中处理过的两个文本组合成为一个统一的文本,其中统一的文本的内容格式为中文-老挝语-对齐标志,其中,对齐标志指如果两个句子是对齐的,标志为1,不对齐的标志为0,其中对齐的句子与不对齐的句子比例为1:3,且为打乱的句子;
Step4,将Step3得到的统一的文本中的句子进行词统计,将这些词统计为一个词表,不含有相同的词,并将句子进行词向量的转换;
Step5,通过对文本中老挝语-中文-对齐标志的分割,将‘中文-老挝语’和‘对齐标志’进行分割,将句子与标志分割开来,将词向量转换为可以被Bi-LSTM输入的矩阵;
Step6,输入到Bi-LSTM中,分别得到老挝语和中文的语义向量。将两个语义向量输入到计算相似度的函数中,求得两者的相似度。根据相似度值的大小,从篇章级的语料中得到最为相似的句子对。
进一步地,所述step1中所述的篇章级对齐语料为双语对齐语句,不对齐的篇章级语料,是指没有经过人工翻译的完整中文和老挝语句子,两者是没有太大联系的句子。
进一步地,所述step1中老挝语文本和中文文本中的句子在两个文本中的位置是一一对应的,其中包括对齐的句子以及不对齐的句子,不能出现没有对应的情况。
进一步地,所述step2所述的python编程是指通过python的jieba包,对中文文本进行分词,通过电子老挝语字典,对老挝语句子分词。
进一步地,所述step3中的统一的文本是指将分好词的句子进行组合,将文本中的每一行分为三列:中文-老挝语-对齐标志,中间用”-”分割开。如以下双语对照表所示:
Figure RE-GDA0002165870340000041
上图中,
Figure RE-GDA0002165870340000042
对应的中文为“随后客舱乘务员为周围旅客重新安排了座位”。
进一步地,所述step3中的打乱的句子是指将每一行的句子与下一行的句子是没有关联的,可能连这两行是对齐的,也有可能是连这几行都是不对齐的句子。如以下双语对照表所示:
Figure RE-GDA0002165870340000043
上表中,第二句、第三句老挝语对应的中文翻译表为:
Figure RE-GDA0002165870340000044
进一步地,所述步骤step4中的词向量转换是指将句子投入到python已经封装好的Word2vec函数中,进行词向量转换。
进一步地,所述步骤step5中的矩阵,是将综合在一起的文本中的‘中文-老挝语’和‘对齐标志’分割开来,将这些数据通过构造矩阵,来将这些数据向量化,被 Bi-LSTM接收。
进一步地,所述步骤step6中的计算相似度的函数为曼哈顿空间距离计算方法,通过计算两个字符串语义空间来计算相似度。
需要说明的是,图2出现老挝语的中文译文是“老师教书”。
双语语料库最为作为自然语言研究领域的重要语言资源,语言信息处理的研究深入,在语料的获取,处理有了长足的进步。本发明主要融合了老挝语语言学特征到算法模型中,在模型的使用中选择了多种模型融合的方法,提高识别精度,本模型基于基于Bi-LSTM算法。首先将篇章级对齐的语料作为输入,由于老挝语与中文的句子排序大致是一致的,所以可以先将篇章级的语料处理为单个的对齐语句,之后将对齐的语句进行拆分。之后将这些对齐的语句进行分词,将分词的词语作为Bi-LSTM算法的输入,通过保留Bi-LSTM算法输出序列的输出结果,通过对输出结果的距离计算,得出句子之间的相似度,训练一个模型来对这些输入进行选择性地学习并且在模型输出时将输出序列进行关联,从而从双语语料库中抽取出平行句对。本发明在老挝语平行句对抽取上有一定的研究意义。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (6)

1.一种基于Bi-LSTM算法的老汉双语平行句子抽取方法,其特征在于:具体步骤如下:
Step1,将汉-老双语篇章级对齐语料根据标点符号,将语料分成两个文本,一个老挝语文本,一个中文文本,其中,两个文本都是一行代表一个句子;
Step2,根据Step1得到的文本,将中文文本使用python编程进行分词,以及标点符号的处理,老挝语文本使用分词工具对齐分词,以及标点符号的处理;
Step3,通过编程,将Step2中处理过的两个文本组合成为一个统一的文本,其中统一的文本的内容格式为中文-老挝语-对齐标志,其中,对齐标志指如果两个句子是对齐的,标志为1,不对齐的标志为0,其中对齐的句子与不对齐的句子比例为1:3,且为打乱的句子;
Step4,将Step3得到的统一的文本中的句子进行词统计,将这些词统计为一个词表,不含有相同的词,并将句子进行词向量的转换;
Step5,通过对文本中中文-老挝语-对齐标志的分割,将‘中文-老挝语’和‘对齐标志’进行分割,将句子与标志分割开来,将词向量转换为可以被Bi-LSTM输入的矩阵;
Step6,输入到Bi-LSTM中,分别得到老挝语和中文的语义向量,将两个语义向量输入到计算相似度的函数中,求得两者的相似度,根据相似度值的大小,从篇章级的语料中得到最为相似的句子对;
所述step1中老挝语文本和中文文本中的句子在两个文本中的位置是一一对应的,
所述step3中的打乱的句子是指将每一行的句子与下一行的句子是没有关联的,
所述step6中的计算相似度的函数为曼哈顿空间距离计算方法,通过计算两个字符串语义空间来计算相似度。
2.根据权利要求1所述的一种基于Bi-LSTM算法的老汉双语平行句子抽取方法,其特征在于:所述step1中所述的篇章级对齐语料为双语对齐语句。
3.根据权利要求1所述的一种基于Bi-LSTM算法的老汉双语平行句子抽取方法,其特征在于:所述step2所述的python编程是指通过python的jieba包,对中文文本进行分词,通过电子老挝语字典,对老挝语句子分词。
4.根据权利要求1所述的一种基于Bi-LSTM算法的老汉双语平行句子抽取方法,其特征在于:所述step3中的统一的文本是指将分好词的句子进行组合,将文本中的每一行分为三列:中文-老挝语-对齐标志,中间用”-”分割开。
5.根据权利要求1所述的一种基于Bi-LSTM算法的老汉双语平行句子抽取方法,其特征在于:所述step4中的词向量转换是指将句子投入到python已经封装好的Word2vec函数中,进行词向量转换。
6.根据权利要求1所述的一种基于Bi-LSTM算法的老汉双语平行句子抽取方法,其特征在于:所述step5中的矩阵,是将综合在一起的文本中的‘中文-老挝语’和‘对齐标志’分割开来,将这些数据通过构造矩阵,来将这些数据向量化,被Bi-LSTM接收。
CN201910520523.1A 2019-06-17 2019-06-17 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法 Active CN110362820B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910520523.1A CN110362820B (zh) 2019-06-17 2019-06-17 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910520523.1A CN110362820B (zh) 2019-06-17 2019-06-17 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法

Publications (2)

Publication Number Publication Date
CN110362820A CN110362820A (zh) 2019-10-22
CN110362820B true CN110362820B (zh) 2022-11-01

Family

ID=68216154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910520523.1A Active CN110362820B (zh) 2019-06-17 2019-06-17 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法

Country Status (1)

Country Link
CN (1) CN110362820B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259652B (zh) * 2020-02-10 2023-08-15 腾讯科技(深圳)有限公司 双语语料句对齐方法、装置、可读存储介质和计算机设备
CN112287688B (zh) * 2020-09-17 2022-02-11 昆明理工大学 融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置
CN112232090A (zh) * 2020-09-17 2021-01-15 昆明理工大学 融合句法结构及Tree-LSTM的汉越平行句对抽取方法
CN112906371B (zh) * 2021-02-08 2024-03-01 北京有竹居网络技术有限公司 一种平行语料获取方法、装置、设备及存储介质
CN113627150B (zh) * 2021-07-01 2022-12-20 昆明理工大学 基于语言相似性的迁移学习平行句对抽取方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281716A (zh) * 2014-10-30 2015-01-14 百度在线网络技术(北京)有限公司 平行语料的对齐方法及装置
CN104391885A (zh) * 2014-11-07 2015-03-04 哈尔滨工业大学 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法
JP2018072979A (ja) * 2016-10-26 2018-05-10 株式会社エヌ・ティ・ティ・データ 対訳文抽出装置、対訳文抽出方法およびプログラム
CN109062897A (zh) * 2018-07-26 2018-12-21 苏州大学 基于深度神经网络的句子对齐方法
CN109213995A (zh) * 2018-08-02 2019-01-15 哈尔滨工程大学 一种基于双语词嵌入的跨语言文本相似度评估技术
CN109241540A (zh) * 2018-08-07 2019-01-18 中国科学院计算技术研究所 一种基于深度神经网络的汉盲自动转换方法和系统
CN109325242A (zh) * 2018-09-19 2019-02-12 苏州大学 基于词对和翻译判断句子是否对齐的方法、装置及设备
CN109684648A (zh) * 2019-01-14 2019-04-26 浙江大学 一种多特征融合的古今汉语自动翻译方法
CN109697288A (zh) * 2018-12-25 2019-04-30 北京理工大学 一种基于深度学习的实例对齐方法
CN109710759A (zh) * 2018-12-17 2019-05-03 北京百度网讯科技有限公司 文本切分方法、装置、计算机设备和可读存储介质
CN109783809A (zh) * 2018-12-22 2019-05-21 昆明理工大学 一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750687B (zh) * 2013-12-25 2018-03-20 株式会社东芝 改进双语语料库的方法及装置、机器翻译方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281716A (zh) * 2014-10-30 2015-01-14 百度在线网络技术(北京)有限公司 平行语料的对齐方法及装置
CN104391885A (zh) * 2014-11-07 2015-03-04 哈尔滨工业大学 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法
JP2018072979A (ja) * 2016-10-26 2018-05-10 株式会社エヌ・ティ・ティ・データ 対訳文抽出装置、対訳文抽出方法およびプログラム
CN109062897A (zh) * 2018-07-26 2018-12-21 苏州大学 基于深度神经网络的句子对齐方法
CN109213995A (zh) * 2018-08-02 2019-01-15 哈尔滨工程大学 一种基于双语词嵌入的跨语言文本相似度评估技术
CN109241540A (zh) * 2018-08-07 2019-01-18 中国科学院计算技术研究所 一种基于深度神经网络的汉盲自动转换方法和系统
CN109325242A (zh) * 2018-09-19 2019-02-12 苏州大学 基于词对和翻译判断句子是否对齐的方法、装置及设备
CN109710759A (zh) * 2018-12-17 2019-05-03 北京百度网讯科技有限公司 文本切分方法、装置、计算机设备和可读存储介质
CN109783809A (zh) * 2018-12-22 2019-05-21 昆明理工大学 一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法
CN109697288A (zh) * 2018-12-25 2019-04-30 北京理工大学 一种基于深度学习的实例对齐方法
CN109684648A (zh) * 2019-01-14 2019-04-26 浙江大学 一种多特征融合的古今汉语自动翻译方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Improved unsupervised sentence alignment for symmetrical and asymmetrical parallel corpora;Fabienne Braune etc.;《COLING"10》;20100823;全文 *
汉老双语句子对齐方法研究;让子强;《中国优秀硕士论文全文数据库》;20180115;全文 *
融入多特征的汉-老双语对齐方法;周兰江,贾善崇,张建安;《中国水运》;20200315;全文 *

Also Published As

Publication number Publication date
CN110362820A (zh) 2019-10-22

Similar Documents

Publication Publication Date Title
CN110362820B (zh) 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法
CN105808525B (zh) 一种基于相似概念对的领域概念上下位关系抽取方法
CN104750687B (zh) 改进双语语料库的方法及装置、机器翻译方法及装置
CN101315622B (zh) 检测文件相似度的系统及方法
CN112613273B (zh) 多语言bert序列标注模型的压缩方法及系统
CN105068990B (zh) 一种面向机器翻译的多策略英文长句分割方法
CN109783809B (zh) 一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法
CN105068997B (zh) 平行语料的构建方法及装置
CN106598959A (zh) 一种确定双语语句对互译关系方法及系统
CN103902525B (zh) 维吾尔语词性标注方法
CN105138514A (zh) 一种基于词典的正向逐次加一字最大匹配中文分词方法
CN101290616A (zh) 一种统计机器翻译方法和系统
CN109740164B (zh) 基于深度语义匹配的电力缺陷等级识别方法
CN106610937A (zh) 一种基于信息论的中文自动分词算法
CN110717341A (zh) 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN106649289A (zh) 同时识别双语术语与词对齐的实现方法及实现系统
CN111563372B (zh) 一种基于教辅书籍出版的排版文档内容自查重方法
CN110502759B (zh) 融入分类词典的汉越混合网络神经机器翻译集外词处理方法
CN108536724A (zh) 一种基于双层哈希索引的地铁设计规范中主体识别方法
CN111950301A (zh) 一种中译英的英语译文质量分析方法及系统
CN103714053B (zh) 一种面向机器翻译的日语动词识别方法
CN107491441B (zh) 一种基于强制解码的动态抽取翻译模板的方法
CN104239292B (zh) 一种获取专业词汇译文的方法
CN103473222A (zh) 一种藏语语义本体创建及词汇扩充方法
CN111027314A (zh) 一种基于语篇的人物属性抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant