CN112287688A - 融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置 - Google Patents

融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置 Download PDF

Info

Publication number
CN112287688A
CN112287688A CN202010980757.7A CN202010980757A CN112287688A CN 112287688 A CN112287688 A CN 112287688A CN 202010980757 A CN202010980757 A CN 202010980757A CN 112287688 A CN112287688 A CN 112287688A
Authority
CN
China
Prior art keywords
english
burma
burmese
bilingual
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010980757.7A
Other languages
English (en)
Other versions
CN112287688B (zh
Inventor
毛存礼
高旭
余正涛
王振晗
高盛祥
满志博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202010980757.7A priority Critical patent/CN112287688B/zh
Publication of CN112287688A publication Critical patent/CN112287688A/zh
Application granted granted Critical
Publication of CN112287688B publication Critical patent/CN112287688B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及融合预训练语言模型及结构特征的英‑缅双语平行句对抽取方法及装置,属于自然语言处理技术领域。本发明包括步骤:数据预处理构建英‑缅平行句对数据集;利用基于多语言预训练语言模型训练英语和缅甸语词向量,以共享语义空间;通过融合英‑缅句子结构特征及孪生神经网络构建英‑缅双语平行句对抽取模型;收集双语文本并使用融合多语言预训练语言模型及英‑缅句子结构特征及孪生网络的英‑缅双语平行句对抽取模型计算每一句对的相似度,并设定相似度阈值来抽取英‑缅双语平行句对。本发明有效的从英‑缅可比语料中抽取平行句对并且降低对语义相似但不平行的句对的误判,为开展英‑缅神经机器翻译研究工作提供了数据支撑。

Description

融合预训练语言模型及结构特征的英-缅双语平行句对抽取 方法及装置
技术领域
本发明涉及融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置,属于自然语言处理技术领域。
背景技术
英-缅平行句对抽取是缅甸语自然语言处理的基础任务,高质量的平行句对是开展英-缅神经机器翻译的基础和前提。英语和缅甸语都是缅甸的官方语言,互联网中存在大量的英语和缅甸语的双语数据,这些数据大多是主题相关、内容相似的双语可比文档,因此可以从英-缅双语可比语料中获取平行句对。英语和缅甸语属于语言差异较大的语言,直接影响英-缅双语句对抽取的效果。不仅需要解决语义空间上的差异,同时还需解决对语义相似但不平行句对的误判问题,以提高英-缅平行句对抽取的准确性,获取高质量的英-缅平行句对。
发明内容
本发明提供了融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置,以用于解决英-缅语义空间的差异以及对语义相似但不平行句对的误判问题。
本发明的技术方案是:融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法,所述方法包括:
Step1、数据预处理构建英-缅平行句对数据集;
Step2、利用基于多语言预训练语言模型训练英语和缅甸语词向量,以共享语义空间;
Step3、通过融合英-缅句子结构特征及孪生神经网络构建英-缅双语平行句对抽取模型;
Step4、收集双语文本并使用融合多语言预训练语言模型及英-缅句子结构特征及孪生网络的英-缅双语平行句对抽取模型计算每一句对的相似度,并设定相似度阈值来抽取英-缅双语平行句对。
作为本发明的进一步方案,所述步骤Step1的具体步骤为:
Step1.1、利用网络爬虫从英-缅双语平行网站爬取包含新闻类、经济类等领域的英-缅双语文本,进行句子切分,去掉数据集中包含非英语和缅甸语字符的数据,通过人工整理得到共494816条英-缅平行数据;
Step1.2、由于缅甸语与英语不同,不以空格分词。因此对缅甸语进行分词处理,为了避免音节切分错误对分词的影响,充分利用缅甸语字符、音节以及词语之间的组合特点,利用神经联合训练模型实现缅甸语的音节切分、分词及词性标记任务。
作为本发明的进一步方案,所述步骤Step2中:
由于随机初始化词向量在英-缅这样不相似的语言对上效果较差,特别是在语义空间上存在较大差异,因此本发明利用基于多语言预训练语言模型(MultilingualBidirectional Encoder Representations from Transformers,MBERT)微调MBERT中的参数信息,训练英语和缅甸语的双语词向量,使两种语言能够共享语义空间;
其中,基于MBERT预训练英语词向量时,由于英语文本以空格分词,因此Wordpiece分词后预训练的词向量直接作为英语词汇的词向量;
缅甸语的最小粒度是字符,每一个词都是由字符组合而成的,而MBERT中的词向量是字符级的向量,不能很好的体现词级别的语义信息,因此不能直接与英语词向量匹配。为此本发明通过预训练语言模型先得到构成每个缅甸语词语的各个字符级的向量,然后再将字符级的向量进行组合进而得到缅甸语词级别的语义向量,这样,用于更准确的获得缅甸语词语的语义信息。
作为本发明的进一步方案,所述步骤Step3的具体步骤:
Step3.1、为了解决英-缅句对语义差异的问题,使英-缅双语句子的向量共享语义空间进行有效的句子向量编码,本发明采用孪生神经网络结构对英-缅句子进行编码表示,将Step2.2和Step2.3中预训练的英语和缅甸语词向量作为孪生神经网络的输入,通过共享权重的孪生神经网络得到同一语义空间中编码后的英语、缅甸语句子向量hen和hmy
Step3.2、为了解决英-缅句子因长度差异导致模型的误判,本发明分别对英语、缅甸语句子的长度进行编码,得到
Figure BDA0002687433390000021
Figure BDA0002687433390000022
并将编码后的句子长度特征融合到孪生网络编码中:
Figure BDA0002687433390000023
Figure BDA0002687433390000024
Step3.3、通过英语和缅甸语的最终向量h′en和h′my表示预测两个句子平行的概率,通过损失函数反向传播训练模型,提升模型的性能。
作为本发明的进一步方案,所述步骤Step4的具体步骤为:
Step4.1、从互联网上的英-缅双语网站中收集英-缅双语文本,为了减小计算的数量,提高计算效率,本发明通过双语实体词典对文本进行分类,将含有相同实体信息的文本作为待抽取的候选文本;
Step4.2、将分好类的待抽取文本进行分句,缅甸语以“||”分句,英语以“.”分句;之后将英语中的每一句与缅甸语中的每一句进行配对,使用融合多语言预训练语言模型及英-缅句子结构特征及孪生网络的英-缅双语平行句对抽取模型计算每一句对的相似度,并设定相似度0.9作为英-缅双语平行句对的阈值来抽取英-缅双语平行句对。
一种融合预训练语言模型及结构特征的英-缅平行句对抽取装置,所述装置包括:
数据预处理模块,用于数据预处理构建英-缅平行句对数据集;
预训练词向量模块,用于利用基于多语言预训练语言模型训练英语和缅甸语词向量,以共享语义空间;
训练英-缅平行句对抽取模型模块,用于通过融合英-缅句子结构特征及孪生神经网络构建英-缅双语平行句对抽取模型;
平行句对分类模块,用于收集双语文本并使用融合多语言预训练语言模型及英-缅句子结构特征及孪生网络的英-缅双语平行句对抽取模型计算每一句对的相似度,并设定相似度阈值来抽取英-缅双语平行句对。
本发明的有益效果是:本发明提出的融合预训练语言模型及结构特征的英-缅平行句对抽取方法及装置,可以有效的从英-缅可比语料中抽取英-缅双语平行句对,并解决了语义相似但不平行句对的误判问题,提高了平行句对抽取的质量。
附图说明
图1为本发明中的总的流程图;
图2为本发明中具有语义包含关系但不平行的句对示例图;
图3为本发明中的方法流程框图。
具体实施方式
实施例1:如图1-3所示,融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法,所述方法包括:
Step1、数据预处理构建英-缅平行句对数据集;
Step2、利用基于多语言预训练语言模型训练英语和缅甸语词向量,以共享语义空间;
Step3、通过融合英-缅句子结构特征及孪生神经网络构建英-缅双语平行句对抽取模型;
Step4、收集双语文本并使用融合多语言预训练语言模型及英-缅句子结构特征及孪生网络的英-缅双语平行句对抽取模型计算每一句对的相似度,并设定相似度阈值来抽取英-缅双语平行句对。
作为本发明的进一步方案,所述步骤Step1的具体步骤为:
Step1.1、利用网络爬虫从英-缅双语平行网站爬取包含新闻类、经济类领域的英-缅双语文本,进行句子切分,去掉数据集中包含非英语和缅甸语字符的数据,通过人工整理得到共494816条英-缅平行数据;
Step1.2、由于缅甸语与英语不同,不以空格分词。因此对缅甸语进行分词处理,为了避免音节切分错误对分词的影响,充分利用缅甸语字符、音节以及词语之间的组合特点,利用神经联合训练模型实现缅甸语的音节切分、分词及词性标记任务。
具体的,神经联合训练模型由音节切分、分词和词性标注三部分组成,通过对缅甸语句子的音节切分任务、分词任务和词性标注任务的联合训练,共享句子的特征,减少音节切分错误对分词的影响。通过音节切分任务得到音节向量,然后将音节向量与字符向量融合训练分词任务,最后在使用分词后的词向量训练词性标记任务,通过联合训练,计算三部分任务损失函数之和:
Loss=Loss音节切分+Loss分词+Loss词性标记
通过最小化联合损失函数,以此降低误差的传播,得到更准确的分词效果。
作为本发明的进一步方案,所述步骤Step2中:
利用基于多语言预训练语言模型MBERT微调MBERT中的参数信息,训练英语和缅甸语的双语词向量,使两种语言能够共享语义空间;
其中,基于MBERT预训练英语词向量时,由于英语文本以空格分词,因此Wordpiece分词后预训练的词向量直接作为英语词汇的词向量;
缅甸语的最小粒度是字符,每一个词都是由字符组合而成的,而MBERT中的词向量是字符级的向量,不能很好的体现词级别的语义信息,因此不能直接与英语词向量匹配。为此本发明通过预训练语言模型先得到构成每个缅甸语词语的各个字符级的向量,然后再将字符级的向量进行组合进而得到缅甸语词级别的语义向量,这样,用于更准确的获得缅甸语词语的语义信息。
具体的,MBERT模型对英语和缅甸语的训练方式不同,训练英语词向量时,以英语句子中的空格分词并基于子词切分单词,可以直接获取英语词向量。缅甸语的最小粒度是字符,是基于字符构成单词的,在进行缅甸语嵌入时如果直接使用缅甸语字符嵌入组成缅甸语句子向量表示,这种方法并没有考虑缅甸语字符之间的组合信息,通过字符嵌入得不到充分的语义信息。为此本文采用的方法是首先通过MBERT生成缅甸语文本中构成每个词语的各个字符级的向量,然后再将字符级的向量进行组合得到词向量的表示。例如句子
Figure BDA0002687433390000051
中的语义单词
Figure BDA0002687433390000052
是由
Figure BDA0002687433390000053
Figure BDA0002687433390000054
5个字符组合而成的。而在缅甸语的文本中,不同的上下文信息,字符的组合也会有所不同。在例句的语义场景中,
Figure BDA0002687433390000055
通过字符向量的相加将会组合成正确的目标词
Figure BDA0002687433390000056
的词嵌入。这样,可以更准确的获得缅甸语词语的语义信息,通过字符和音节的组合在保留上下文信息以及语义信息的同时得到最终单词的词嵌入表示。
作为本发明的进一步方案,所述步骤Step3的具体步骤:
Step3.1、为了解决英-缅句对语义差异的问题,使英-缅双语句子的向量共享语义空间进行有效的句子向量编码,本发明采用孪生神经网络结构对英-缅句子进行编码表示,将预训练的英语和缅甸语词向量作为孪生神经网络的输入,通过共享权重的孪生神经网络得到同一语义空间中编码后的英语、缅甸语句子向量hen和hmy
Step3.2、为了解决英-缅句子因长度差异导致模型的误判,本发明分别对英语、缅甸语句子的长度进行编码,得到
Figure BDA0002687433390000057
Figure BDA0002687433390000058
并将编码后的句子长度特征融合到孪生网络编码中:
Figure BDA0002687433390000059
Figure BDA00026874333900000510
Step3.3、通过英语和缅甸语的最终向量h′en和h′my表示预测两个句子平行的概率,通过损失函数反向传播训练模型,提升模型的性能。
具体的,本文采用孪生神经网络结构对英-缅句子进行编码表示,将预训练模型得到的英语和缅甸语词向量作为输入,共享权重的孪生网络可以在相同参数的条件下,将英语和缅甸语的向量表示最大程度的共享到同一语义空间,使相似的句子在语义空间中具有一致的分布,提高跨语言句子表示的准确性,从而提高模型对跨语言句子的语义相似度计算准确性。然而孪生网络得到的向量仅考虑了语义信息而忽略了结构特征,导致仅有语义包含关系但不平行的句对的相似度过高,如图2,如果直接将这种长度差异过大的句对删除,可能会将少部分平行句对筛选出去导致误判,因此本发明融合了结构特征对英-缅双语句对分类。分别对英语、缅语句子的长度特征进行编码得到
Figure BDA0002687433390000061
Figure BDA0002687433390000062
然后与孪生网络编码后的英语、缅甸语句子语义向量hen和hmy进行融合,增强平行句对在语义及结构特征上的表示:
Figure BDA0002687433390000063
Figure BDA0002687433390000064
在分别得到英语和缅甸语的句子表示h′en和h′my后,通过两向量计算两个句子平行的概率,并通过交叉熵损失函数反向传播训练英-缅平行句对抽取模型。
作为本发明的进一步方案,所述步骤Step4的具体步骤为:
Step4.1、从互联网上的英-缅双语网站中收集英-缅双语文本,通过双语实体词典对文本进行分类,将含有相同实体信息的文本作为待抽取的候选文本;
Step4.2、将分好类的待抽取文本进行分句,缅甸语以“||”分句,英语以“.”分句;之后将英语中的每一句与缅甸语中的每一句进行配对,使用融合多语言预训练语言模型及英-缅句子结构特征及孪生网络的英-缅双语平行句对抽取模型计算每一句对的相似度,并设定相似度0.9作为英-缅双语平行句对的阈值来抽取英-缅双语平行句对。
一种融合预训练语言模型及结构特征的英-缅平行句对抽取装置,所述装置包括:
数据预处理模块,用于数据预处理构建英-缅平行句对数据集;
预训练词向量模块,用于利用基于多语言预训练语言模型训练英语和缅甸语词向量,以共享语义空间;
训练英-缅平行句对抽取模型模块,用于通过融合英-缅句子结构特征及孪生神经网络构建英-缅双语平行句对抽取模型;
平行句对分类模块,用于收集双语文本并使用融合多语言预训练语言模型及英-缅句子结构特征及孪生网络的英-缅双语平行句对抽取模型计算每一句对的相似度,并设定相似度阈值来抽取英-缅双语平行句对。
为了说明本发明的效果,本发明进行了相关实验,通过精确率、召回率和F1值评价模型的性能:
Figure BDA0002687433390000071
Figure BDA0002687433390000072
Figure BDA0002687433390000073
为了验证本发明的效果,我们与不同模型进行对比实验,如表1所示:
表1与基线模型对比
Figure BDA0002687433390000074
从表1中可以看出,使用深度学习方法的Bi-LSTM模型与机器学习的支持向量机模型(SVM)和线性回归(LR)分类模型相比具有更好的效果,主要原因是Bi-LSTM模型可以更好的学习句子向量的特征,并且孪生网络将两种语言共享到同一语义空间中可以一定程度解决跨语言的问题而机器学习方法无法解决跨语言的问题使效果明显下降;基线模型的效果为77.33%,而BERT+Bi-LSTM的方法的F1值达到了79.90%,提高了2.57%。本文的方法的F1值达到了80.84%,比基线模型提高了3.51%,实验结果表明,在不相关语言对之间直接将两种语言共享语义空间会丢失语义信息从而导致模型性能的下降,融合MBERT预训练模型可以提高英-缅平行抽取模型的性能,而本发明的融合预训练模型及结构特征的英-缅平行句对抽取方法达到了最好的效果。
为了探究不同预训练方法对模型的效果,我们与使用随机初始化词向量的方法以及传统的Word2Vec方法做了对比,实验结果如表2所示:
表2不同预训练方法的对比
Figure BDA0002687433390000081
从表2中可以看出,使用传统的词向量训练方法对模型性能有一定提升,本文使用MBERT预训练词向量的方法达到了最好的效果。原因在于随机初始化的向量并不能充分的表示语义信息,而使用Word2vec的方法可以保留相对完整的语义信息,而MBERT的方法是在大规模的语料上训练,并且使用双向Transformer编码结构,不仅保留更完整的语义信息,而且还考虑了上下文信息,所以结合模型的效果更好。
为了探究词向量在平行句对抽取任务中是否微调对模型性能的影响,我们比较了直接使用MBERT预训练词向量和初始化词向量并在任务中进行微调的实验结果,如表3所示:
表3词向量微调对实验结果的影响
Figure BDA0002687433390000082
实验结果表明,模型在训练过程中结合任务对词向量的微调可以得到适合任务的更好的向量表示,使得模型能更准确的分辨是否是平行句子。
在抽取平行句对的实验中,为了证明融合结构特征的方法的有效性,使用从维基百科中获取的句子分别进行了打分,得到的效果对比如下所示:
例1:
Japan and Yahoo!
Yahoo!
Figure BDA0002687433390000083
融合长度前:相似度得分:0.996
融合长度后:相似度得分:0.779
从例1中可以看出,针对于仅有语义包含关系但不平行的句对,不融合结构特征的相似度得分为0.996,融合了结构特征,相似度得分为0.779,降低了模型对这类句对的误判率。
例2:
A man should be judged by his deeds not his words
Figure BDA0002687433390000091
融合长度前:相似度得分:0.025
融合长度后:相似度得分:0.018
同时例2中表明,针对不平行句对的相似度影响不大。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (6)

1.融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法,其特征在于:所述方法包括:
Step1、数据预处理构建英-缅平行句对数据集;
Step2、利用基于多语言预训练语言模型训练英语和缅甸语词向量,以共享语义空间;
Step3、通过融合英-缅句子结构特征及孪生神经网络构建英-缅双语平行句对抽取模型;
Step4、收集双语文本并使用融合多语言预训练语言模型及英-缅句子结构特征及孪生网络的英-缅双语平行句对抽取模型计算每一句对的相似度,并设定相似度阈值来抽取英-缅双语平行句对。
2.根据权利要求1所述的融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、利用网络爬虫从英-缅双语平行网站爬取包含新闻类、经济类领域的英-缅双语文本,进行句子切分,去掉数据集中包含非英语和缅甸语字符的数据,通过人工整理得到共494816条英-缅平行数据;
Step1.2、再利用神经联合训练模型实现缅甸语的音节切分、分词及词性标记任务。
3.根据权利要求1所述的融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法,其特征在于:所述步骤Step2中:
利用基于多语言预训练语言模型MBERT微调MBERT中的参数信息,训练英语和缅甸语的双语词向量,使两种语言能够共享语义空间;
其中,基于MBERT预训练英语词向量时,由于英语文本以空格分词,因此Wordpiece分词后预训练的词向量直接作为英语词汇的词向量;
通过预训练语言模型先得到构成每个缅甸语词语的各个字符级的向量,然后再将字符级的向量进行组合进而得到缅甸语词级别的语义向量,这样,用于更准确的获得缅甸语词语的语义信息。
4.根据权利要求1所述的融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法,其特征在于:所述步骤Step3的具体步骤:
Step3.1、采用孪生神经网络结构对英-缅句子进行编码表示,将预训练的英语和缅甸语词向量作为孪生神经网络的输入,通过共享权重的孪生神经网络得到同一语义空间中编码后的英语、缅甸语句子向量hen和hmy
Step3.2、分别对英语、缅甸语句子的长度进行编码,得到
Figure FDA0002687433380000021
Figure FDA0002687433380000022
并将编码后的句子长度特征融合到孪生网络编码中:
Figure FDA0002687433380000023
Figure FDA0002687433380000024
Step3.3、通过英语和缅甸语的最终向量h′en和h′my表示预测两个句子平行的概率,通过损失函数反向传播训练模型,提升模型的性能。
5.根据权利要求1所述的融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法,其特征在于:所述步骤Step4的具体步骤为:
Step4.1、从互联网上的英-缅双语网站中收集英-缅双语文本,通过双语实体词典对文本进行分类,将含有相同实体信息的文本作为待抽取的候选文本;
Step4.2、将分好类的待抽取文本进行分句,缅甸语以
Figure FDA0002687433380000025
分句,英语以“.”分句;之后将英语中的每一句与缅甸语中的每一句进行配对,使用融合多语言预训练语言模型及英-缅句子结构特征及孪生网络的英-缅双语平行句对抽取模型计算每一句对的相似度,并设定相似度0.9作为英-缅双语平行句对的阈值来抽取英-缅双语平行句对。
6.一种融合预训练语言模型及结构特征的英-缅平行句对抽取装置,其特征在于,所述装置包括:
数据预处理模块,用于数据预处理构建英-缅平行句对数据集;
预训练词向量模块,用于利用基于多语言预训练语言模型训练英语和缅甸语词向量,以共享语义空间;
训练英-缅平行句对抽取模型模块,用于通过融合英-缅句子结构特征及孪生神经网络构建英-缅双语平行句对抽取模型;
平行句对分类模块,用于收集双语文本并使用融合多语言预训练语言模型及英-缅句子结构特征及孪生网络的英-缅双语平行句对抽取模型计算每一句对的相似度,并设定相似度阈值来抽取英-缅双语平行句对。
CN202010980757.7A 2020-09-17 2020-09-17 融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置 Active CN112287688B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010980757.7A CN112287688B (zh) 2020-09-17 2020-09-17 融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010980757.7A CN112287688B (zh) 2020-09-17 2020-09-17 融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置

Publications (2)

Publication Number Publication Date
CN112287688A true CN112287688A (zh) 2021-01-29
CN112287688B CN112287688B (zh) 2022-02-11

Family

ID=74419927

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010980757.7A Active CN112287688B (zh) 2020-09-17 2020-09-17 融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置

Country Status (1)

Country Link
CN (1) CN112287688B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800777A (zh) * 2021-04-14 2021-05-14 北京育学园健康管理中心有限公司 语义确定方法
CN113032559A (zh) * 2021-03-15 2021-06-25 新疆大学 一种用于低资源黏着性语言文本分类的语言模型微调方法
CN113076398A (zh) * 2021-03-30 2021-07-06 昆明理工大学 基于双语词典映射指导的跨语言信息检索方法
CN113505571A (zh) * 2021-07-30 2021-10-15 沈阳雅译网络技术有限公司 一种面向神经机器翻译的数据选择及训练方法
CN113836271A (zh) * 2021-09-28 2021-12-24 北京有竹居网络技术有限公司 自然语言处理的方法和产品
CN113901831A (zh) * 2021-09-15 2022-01-07 昆明理工大学 基于预训练语言模型及双向交互注意力的平行句对抽取方法
CN113901844A (zh) * 2021-09-13 2022-01-07 昆明理工大学 基于模型不确定性约束的半监督汉缅神经机器翻译方法及装置
CN114861688A (zh) * 2022-05-30 2022-08-05 哈尔滨工业大学 一种面向低资源机器翻译的平行数据筛选方法及系统
CN114896959A (zh) * 2022-04-15 2022-08-12 合肥工业大学 中日词语自动对齐方法和系统
CN115017884A (zh) * 2022-01-20 2022-09-06 昆明理工大学 基于图文多模态门控增强的文本平行句对抽取方法
CN116705058A (zh) * 2023-08-04 2023-09-05 贝壳找房(北京)科技有限公司 多模语音任务的处理方法、电子设备及可读存储介质
CN117235532A (zh) * 2023-11-09 2023-12-15 西南民族大学 一种基于M-Bert的恶意网站检测模型的训练及检测方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783809A (zh) * 2018-12-22 2019-05-21 昆明理工大学 一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法
CN110362820A (zh) * 2019-06-17 2019-10-22 昆明理工大学 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法
CN110414009A (zh) * 2019-07-09 2019-11-05 昆明理工大学 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置
CN110489750A (zh) * 2019-08-12 2019-11-22 昆明理工大学 基于双向lstm-crf的缅甸语分词及词性标注方法及装置
CN110489624A (zh) * 2019-07-12 2019-11-22 昆明理工大学 基于句子特征向量的汉越伪平行句对抽取的方法
CN110516230A (zh) * 2019-07-12 2019-11-29 昆明理工大学 基于枢轴语言的汉-缅双语平行句对抽取方法及装置
CN110705253A (zh) * 2019-08-29 2020-01-17 昆明理工大学 基于迁移学习的缅甸语依存句法分析方法及装置
CN110717341A (zh) * 2019-09-11 2020-01-21 昆明理工大学 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN111126037A (zh) * 2019-12-18 2020-05-08 昆明理工大学 一种基于孪生循环神经网络的泰文句子切分方法
CN111382580A (zh) * 2020-01-21 2020-07-07 沈阳雅译网络技术有限公司 一种面向神经机器翻译的编码器-解码器框架预训练方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783809A (zh) * 2018-12-22 2019-05-21 昆明理工大学 一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法
CN110362820A (zh) * 2019-06-17 2019-10-22 昆明理工大学 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法
CN110414009A (zh) * 2019-07-09 2019-11-05 昆明理工大学 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置
CN110489624A (zh) * 2019-07-12 2019-11-22 昆明理工大学 基于句子特征向量的汉越伪平行句对抽取的方法
CN110516230A (zh) * 2019-07-12 2019-11-29 昆明理工大学 基于枢轴语言的汉-缅双语平行句对抽取方法及装置
CN110489750A (zh) * 2019-08-12 2019-11-22 昆明理工大学 基于双向lstm-crf的缅甸语分词及词性标注方法及装置
CN110705253A (zh) * 2019-08-29 2020-01-17 昆明理工大学 基于迁移学习的缅甸语依存句法分析方法及装置
CN110717341A (zh) * 2019-09-11 2020-01-21 昆明理工大学 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN111126037A (zh) * 2019-12-18 2020-05-08 昆明理工大学 一种基于孪生循环神经网络的泰文句子切分方法
CN111382580A (zh) * 2020-01-21 2020-07-07 沈阳雅译网络技术有限公司 一种面向神经机器翻译的编码器-解码器框架预训练方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张少宁: "基于枢轴语言的汉-缅平行语料库构建方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032559B (zh) * 2021-03-15 2023-04-28 新疆大学 一种用于低资源黏着性语言文本分类的语言模型微调方法
CN113032559A (zh) * 2021-03-15 2021-06-25 新疆大学 一种用于低资源黏着性语言文本分类的语言模型微调方法
CN113076398A (zh) * 2021-03-30 2021-07-06 昆明理工大学 基于双语词典映射指导的跨语言信息检索方法
CN112800777A (zh) * 2021-04-14 2021-05-14 北京育学园健康管理中心有限公司 语义确定方法
CN113505571A (zh) * 2021-07-30 2021-10-15 沈阳雅译网络技术有限公司 一种面向神经机器翻译的数据选择及训练方法
CN113901844A (zh) * 2021-09-13 2022-01-07 昆明理工大学 基于模型不确定性约束的半监督汉缅神经机器翻译方法及装置
CN113901831B (zh) * 2021-09-15 2024-04-26 昆明理工大学 基于预训练语言模型及双向交互注意力的平行句对抽取方法
CN113901831A (zh) * 2021-09-15 2022-01-07 昆明理工大学 基于预训练语言模型及双向交互注意力的平行句对抽取方法
CN113836271B (zh) * 2021-09-28 2023-08-15 北京有竹居网络技术有限公司 自然语言处理的方法和产品
CN113836271A (zh) * 2021-09-28 2021-12-24 北京有竹居网络技术有限公司 自然语言处理的方法和产品
CN115017884A (zh) * 2022-01-20 2022-09-06 昆明理工大学 基于图文多模态门控增强的文本平行句对抽取方法
CN115017884B (zh) * 2022-01-20 2024-04-26 昆明理工大学 基于图文多模态门控增强的文本平行句对抽取方法
CN114896959A (zh) * 2022-04-15 2022-08-12 合肥工业大学 中日词语自动对齐方法和系统
CN114896959B (zh) * 2022-04-15 2023-07-07 合肥工业大学 中日词语自动对齐方法和系统
CN114861688A (zh) * 2022-05-30 2022-08-05 哈尔滨工业大学 一种面向低资源机器翻译的平行数据筛选方法及系统
CN116705058A (zh) * 2023-08-04 2023-09-05 贝壳找房(北京)科技有限公司 多模语音任务的处理方法、电子设备及可读存储介质
CN116705058B (zh) * 2023-08-04 2023-10-27 贝壳找房(北京)科技有限公司 多模语音任务的处理方法、电子设备及可读存储介质
CN117235532A (zh) * 2023-11-09 2023-12-15 西南民族大学 一种基于M-Bert的恶意网站检测模型的训练及检测方法
CN117235532B (zh) * 2023-11-09 2024-01-26 西南民族大学 一种基于M-Bert的恶意网站检测模型的训练及检测方法

Also Published As

Publication number Publication date
CN112287688B (zh) 2022-02-11

Similar Documents

Publication Publication Date Title
CN112287688B (zh) 融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置
CN110717047B (zh) 一种基于图卷积神经网络的Web服务分类方法
CN111177365B (zh) 一种基于图模型的无监督自动文摘提取方法
WO2021114745A1 (zh) 一种基于词缀感知的社交媒体命名实体识别方法
CN112257453B (zh) 融合关键词和语义特征的汉越文本相似度计算方法
Boltužić et al. Fill the gap! analyzing implicit premises between claims from online debates
CN113268995B (zh) 中文学术关键词抽取方法、装置和存储介质
CN110717332B (zh) 基于非对称孪生网络的新闻与案件相似度计算方法
CN106776581A (zh) 基于深度学习的主观性文本情感分析方法
CN111680488B (zh) 基于知识图谱多视角信息的跨语言实体对齐方法
CN110378409A (zh) 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法
CN114969304A (zh) 基于要素图注意力的案件舆情多文档生成式摘要方法
CN113901840A (zh) 一种基于多粒度特征的文本生成评价方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN111581943A (zh) 一种基于句子关联图的汉越双语多文档新闻观点句识别方法
CN106610949A (zh) 一种基于语义分析的文本特征提取方法
Heo et al. Multimodal neural machine translation with weakly labeled images
CN110502759B (zh) 融入分类词典的汉越混合网络神经机器翻译集外词处理方法
CN117251524A (zh) 一种基于多策略融合的短文本分类方法
CN114861082A (zh) 一种基于多维度语义表示的攻击性评论检测方法
CN112257460B (zh) 基于枢轴的汉越联合训练神经机器翻译方法
CN114970537B (zh) 基于多层标注策略的跨境民族文化实体关系抽取方法及装置
Tolmachev et al. Shrinking Japanese morphological analyzers with neural networks and semi-supervised learning
CN113626577B (zh) 基于阅读理解的汉越跨语言新闻事件要素抽取方法
Mulki et al. Empirical evaluation of leveraging named entities for Arabic sentiment analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant