CN108153835A

CN108153835A - 一种维-汉文可比语料自动获取方法

Info

Publication number: CN108153835A
Application number: CN201711342028.3A
Authority: CN
Inventors: 米尔夏提·力提甫; 吐尔根·依布拉音; 卡哈尔江·阿布都热西提; 艾山·吾买尔; 买合木提·买买提; 瓦热斯·帕尔哈提; 王路路; 古丽尼格尔·阿不都外力
Original assignee: Xinjiang University
Current assignee: Xinjiang University
Priority date: 2017-12-14
Filing date: 2017-12-14
Publication date: 2018-06-12

Abstract

本发明公开了一种维‑汉文可比语料自动获取方法，包括如下步骤：获取多个维‑汉文可比语料，采用Adaboost方法对BP神经网络进行离线训练，得到一个分类器；通过分类器完成待检测文本内维‑汉文可比语料的获取。本发明实现了维‑汉文可比语料的自动获取，在语料覆盖面，实时性和扩展性方面都有较好的表现，且准确率较高。

Description

一种维-汉文可比语料自动获取方法

技术领域

本发明涉及智能信息处理领域，具体涉及一种维-汉文可比语料自动获取方法。

背景技术

近几年来，随着互联网的蓬勃发展，越来越多的学者参与到了机器翻译的研究工作中。新疆地处亚欧大陆腹地，作为丝绸之路经济带核心区，在经济发展中扮演着重要的枢纽角色。新疆维吾尔自治区是多名族聚居的地区，发展名族语言机器翻译技术对新疆的互联网发展具有很大的助推作用。其中语料库作为基础资源，在机器翻译，跨语言信息检索，搜索引擎等领域发挥着重要作用。但是，由于双语平行语料本身就相对稀缺且不易获取，导致少数名族语言在语料库方面发展缓慢。可比语料库的提出，在一定程度上可以帮助语料库扩建，大大增加了获取非平衡双语语料的速度。同时，可比语料库对挖掘等价翻译句对，如未登录词的翻译，专业科技术语互译对抽取等研究也有很大帮助。因此，可比语料库的构建可以很好的帮助平行语料库进行扩展，为平行语料库的构建打下基础。

国内外先有的可比语料库中，大多是对文本提取特种值，对特征值进行计算相似比，但是单纯使用这种方法筛选出来的可比语料在精准度和筛选效率方面都不高。

发明内容

为解决上述问题，本发明提供了一种维-汉文可比语料自动获取方法，实现了维-汉文可比语料的自动获取，且准确率较高。

为实现上述目的，本发明采取的技术方案为：

一种维-汉文可比语料自动获取方法，包括如下步骤：

获取多个维-汉文可比语料，采用Adaboost方法对BP神经网络进行离线训练，得到一个分类器；

通过分类器完成待检测文本内维-汉文可比语料的获取。

优选地，所述分类器通过以下步骤获取：：

S1、通过BP算法对所获取的多个维-汉文可比语料进行一次训练，生成学习器；

S2、采用Adaboost方法对所得学习器进行3次迭代，分别得到弱学习器l₁(x)、l₂(x)、l₃(x)，然后进行加权输出一个用于维-汉文可比语料预测的分类器。

优选地，所述多个维-汉文可比语料为人工获取所得。

优选地，所述Adaboost方法具体包括如下步骤：

(1)给定一个训练算法和训练集；

(2)初始化训练集中各个训练样本的分布，将初始时的样本分布设为均匀分布；

(3)根据训练样本的概率分布采集训练样本，得到一个弱学习器l_t(x)，其中，t为当前迭代次数；

(4)计算在当前得到的学习器下各训练样本的误差以及误差的平均值；

(5)计算当前学习器的权重；；

(6)调整下次迭代时的样本分布，对样本分布进行归一化处理，确保各样本的采样概率和为1；

(7)重复步骤(3)-(6)，直至迭代次数为T为止；

(8)将T个弱学习器的权重归一化之后加权结合，得到最终的分类器。

优选地，包括如下步骤：

获取多个维-汉文可比语料，对所述多个维-汉文可比语料进行关键字的提取，通过BP算法对所获取的关键字进行一次训练，生成学习器；

采用Adaboost方法对所得学习器进行3次迭代，分别得到弱学习器l₁(x)、 l₂(x)、l₃(x)，然后进行加权输出一个用于维-汉文可比语料预测的分类器；

通过分类器完成待检测文本内维-汉文可比语料的获取。

优选地，所述关键字为人工标注所得。

优选地，所述多个维-汉文可比语料通过数据挖掘模块获取，该数据挖掘模块连接有一挖掘算法编辑模块，用于进行各种维-汉文可比语料挖掘算法的编辑，从而实现多种维-汉文可比语料的获取。

本发明实现了维-汉文可比语料的自动获取，在语料覆盖面，实时性和扩展性方面都有较好的表现，且准确率较高。

具体实施方式

为了使本发明的目的及优点更加清楚明白，以下结合实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例提供了一种维-汉文可比语料自动获取方法，包括如下步骤：

通过分类器完成待检测文本内维-汉文可比语料的获取。

所述分类器通过以下步骤获取：：

所述Adaboost方法具体包括如下步骤：

(1)给定一个训练算法和训练集；

(5)计算当前学习器的权重；；

(7)重复步骤(3)-(6)，直至迭代次数为T为止；

实施例1

一种维-汉文可比语料自动获取方法，包括如下步骤：

通过人工获取多个维-汉文可比语料，采用Adaboost方法对BP神经网络进行离线训练，得到一个分类器；

通过分类器完成待检测文本内维-汉文可比语料的获取。

实施例2

一种维-汉文可比语料自动获取方法，包括如下步骤：

通过人工获取多个维-汉文可比语料，对所述多个维-汉文可比语料进行关键字的提取，通过BP算法对所获取的关键字进行一次训练，生成学习器；

通过分类器完成待检测文本内维-汉文可比语料的获取。

实施例3

一种维-汉文可比语料自动获取方法，包括如下步骤：

通过数据挖掘模块获取多个维-汉文可比语料，所述数据挖掘模块连接有一挖掘算法编辑模块，用于进行各种维-汉文可比语料挖掘算法的编辑，从而实现多种维-汉文可比语料的获取。

对所述多个维-汉文可比语料进行关键字的提取，通过BP算法对所获取的关键字进行一次训练，生成学习器；

通过分类器完成待检测文本内维-汉文可比语料的获取。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种维-汉文可比语料自动获取方法，其特征在于，包括如下步骤：

通过分类器完成待检测文本内维-汉文可比语料的获取。

2.如权利要求1所述的一种维-汉文可比语料自动获取方法，其特征在于，所述分类器通过以下步骤获取：

3.如权利要求1所述的一种维-汉文可比语料自动获取方法，其特征在于，所述多个维-汉文可比语料为人工获取所得。

4.如权利要求1所述的一种维-汉文可比语料自动获取方法，其特征在于，所述Adaboost方法具体包括如下步骤：

(1)给定一个训练算法和训练集；

(5)计算当前学习器的权重；；

(7)重复步骤(3)-(6)，直至迭代次数为T为止；

5.如权利要求1所述的一种维-汉文可比语料自动获取方法，其特征在于，包括如下步骤：

采用Adaboost方法对所得学习器进行3次迭代，分别得到弱学习器l₁(x)、l₂(x)、l₃(x)，然后进行加权输出一个用于维-汉文可比语料预测的分类器；

通过分类器完成待检测文本内维-汉文可比语料的获取。

6.如权利要求1所述的一种维-汉文可比语料自动获取方法，其特征在于，所述关键字为人工标注所得。

7.如权利要求1所述的一种维-汉文可比语料自动获取方法，其特征在于，所述多个维-汉文可比语料通过数据挖掘模块获取，该数据挖掘模块连接有一挖掘算法编辑模块，用于进行各种维-汉文可比语料挖掘算法的编辑，从而实现多种维-汉文可比语料的获取。