CN108153835A - 一种维-汉文可比语料自动获取方法 - Google Patents
一种维-汉文可比语料自动获取方法 Download PDFInfo
- Publication number
- CN108153835A CN108153835A CN201711342028.3A CN201711342028A CN108153835A CN 108153835 A CN108153835 A CN 108153835A CN 201711342028 A CN201711342028 A CN 201711342028A CN 108153835 A CN108153835 A CN 108153835A
- Authority
- CN
- China
- Prior art keywords
- chinese
- language material
- dimension
- learner
- grader
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种维‑汉文可比语料自动获取方法,包括如下步骤:获取多个维‑汉文可比语料,采用Adaboost方法对BP神经网络进行离线训练,得到一个分类器;通过分类器完成待检测文本内维‑汉文可比语料的获取。本发明实现了维‑汉文可比语料的自动获取,在语料覆盖面,实时性和扩展性方面都有较好的表现,且准确率较高。
Description
技术领域
本发明涉及智能信息处理领域,具体涉及一种维-汉文可比语料自动获取方法。
背景技术
近几年来,随着互联网的蓬勃发展,越来越多的学者参与到了机器翻译的研究工作中。新疆地处亚欧大陆腹地,作为丝绸之路经济带核心区,在经济发展中扮演着重要的枢纽角色。新疆维吾尔自治区是多名族聚居的地区,发展名族语言机器翻译技术对新疆的互联网发展具有很大的助推作用。其中语料库作为基础资源,在机器翻译,跨语言信息检索,搜索引擎等领域发挥着重要作用。但是,由于双语平行语料本身就相对稀缺且不易获取,导致少数名族语言在语料库方面发展缓慢。可比语料库的提出,在一定程度上可以帮助语料库扩建,大大增加了获取非平衡双语语料的速度。同时,可比语料库对挖掘等价翻译句对,如未登录词的翻译,专业科技术语互译对抽取等研究也有很大帮助。因此,可比语料库的构建可以很好的帮助平行语料库进行扩展,为平行语料库的构建打下基础。
国内外先有的可比语料库中,大多是对文本提取特种值,对特征值进行计算相似比,但是单纯使用这种方法筛选出来的可比语料在精准度和筛选效率方面都不高。
发明内容
为解决上述问题,本发明提供了一种维-汉文可比语料自动获取方法,实现了维-汉文可比语料的自动获取,且准确率较高。
为实现上述目的,本发明采取的技术方案为:
一种维-汉文可比语料自动获取方法,包括如下步骤:
获取多个维-汉文可比语料,采用Adaboost方法对BP神经网络进行离线训练,得到一个分类器;
通过分类器完成待检测文本内维-汉文可比语料的获取。
优选地,所述分类器通过以下步骤获取::
S1、通过BP算法对所获取的多个维-汉文可比语料进行一次训练,生成学习器;
S2、采用Adaboost方法对所得学习器进行3次迭代,分别得到弱学习器l1(x)、l2(x)、l3(x),然后进行加权输出一个用于维-汉文可比语料预测的分类器。
优选地,所述多个维-汉文可比语料为人工获取所得。
优选地,所述Adaboost方法具体包括如下步骤:
(1)给定一个训练算法和训练集;
(2)初始化训练集中各个训练样本的分布,将初始时的样本分布设为均匀分布;
(3)根据训练样本的概率分布采集训练样本,得到一个弱学习器lt(x),其中,t为当前迭代次数;
(4)计算在当前得到的学习器下各训练样本的误差以及误差的平均值;
(5)计算当前学习器的权重;;
(6)调整下次迭代时的样本分布,对样本分布进行归一化处理,确保各样本的采样概率和为1;
(7)重复步骤(3)-(6),直至迭代次数为T为止;
(8)将T个弱学习器的权重归一化之后加权结合,得到最终的分类器。
优选地,包括如下步骤:
获取多个维-汉文可比语料,对所述多个维-汉文可比语料进行关键字的提取,通过BP算法对所获取的关键字进行一次训练,生成学习器;
采用Adaboost方法对所得学习器进行3次迭代,分别得到弱学习器l1(x)、 l2(x)、l3(x),然后进行加权输出一个用于维-汉文可比语料预测的分类器;
通过分类器完成待检测文本内维-汉文可比语料的获取。
优选地,所述关键字为人工标注所得。
优选地,所述多个维-汉文可比语料通过数据挖掘模块获取,该数据挖掘模块连接有一挖掘算法编辑模块,用于进行各种维-汉文可比语料挖掘算法的编辑,从而实现多种维-汉文可比语料的获取。
本发明实现了维-汉文可比语料的自动获取,在语料覆盖面,实时性和扩展性方面都有较好的表现,且准确率较高。
具体实施方式
为了使本发明的目的及优点更加清楚明白,以下结合实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供了一种维-汉文可比语料自动获取方法,包括如下步骤:
获取多个维-汉文可比语料,采用Adaboost方法对BP神经网络进行离线训练,得到一个分类器;
通过分类器完成待检测文本内维-汉文可比语料的获取。
所述分类器通过以下步骤获取::
S1、通过BP算法对所获取的多个维-汉文可比语料进行一次训练,生成学习器;
S2、采用Adaboost方法对所得学习器进行3次迭代,分别得到弱学习器l1(x)、l2(x)、l3(x),然后进行加权输出一个用于维-汉文可比语料预测的分类器。
所述Adaboost方法具体包括如下步骤:
(1)给定一个训练算法和训练集;
(2)初始化训练集中各个训练样本的分布,将初始时的样本分布设为均匀分布;
(3)根据训练样本的概率分布采集训练样本,得到一个弱学习器lt(x),其中,t为当前迭代次数;
(4)计算在当前得到的学习器下各训练样本的误差以及误差的平均值;
(5)计算当前学习器的权重;;
(6)调整下次迭代时的样本分布,对样本分布进行归一化处理,确保各样本的采样概率和为1;
(7)重复步骤(3)-(6),直至迭代次数为T为止;
(8)将T个弱学习器的权重归一化之后加权结合,得到最终的分类器。
实施例1
一种维-汉文可比语料自动获取方法,包括如下步骤:
通过人工获取多个维-汉文可比语料,采用Adaboost方法对BP神经网络进行离线训练,得到一个分类器;
通过分类器完成待检测文本内维-汉文可比语料的获取。
实施例2
一种维-汉文可比语料自动获取方法,包括如下步骤:
通过人工获取多个维-汉文可比语料,对所述多个维-汉文可比语料进行关键字的提取,通过BP算法对所获取的关键字进行一次训练,生成学习器;
采用Adaboost方法对所得学习器进行3次迭代,分别得到弱学习器l1(x)、 l2(x)、l3(x),然后进行加权输出一个用于维-汉文可比语料预测的分类器;
通过分类器完成待检测文本内维-汉文可比语料的获取。
实施例3
一种维-汉文可比语料自动获取方法,包括如下步骤:
通过数据挖掘模块获取多个维-汉文可比语料,所述数据挖掘模块连接有一挖掘算法编辑模块,用于进行各种维-汉文可比语料挖掘算法的编辑,从而实现多种维-汉文可比语料的获取。
对所述多个维-汉文可比语料进行关键字的提取,通过BP算法对所获取的关键字进行一次训练,生成学习器;
采用Adaboost方法对所得学习器进行3次迭代,分别得到弱学习器l1(x)、 l2(x)、l3(x),然后进行加权输出一个用于维-汉文可比语料预测的分类器;
通过分类器完成待检测文本内维-汉文可比语料的获取。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (7)
1.一种维-汉文可比语料自动获取方法,其特征在于,包括如下步骤:
获取多个维-汉文可比语料,采用Adaboost方法对BP神经网络进行离线训练,得到一个分类器;
通过分类器完成待检测文本内维-汉文可比语料的获取。
2.如权利要求1所述的一种维-汉文可比语料自动获取方法,其特征在于,所述分类器通过以下步骤获取:
S1、通过BP算法对所获取的多个维-汉文可比语料进行一次训练,生成学习器;
S2、采用Adaboost方法对所得学习器进行3次迭代,分别得到弱学习器l1(x)、l2(x)、l3(x),然后进行加权输出一个用于维-汉文可比语料预测的分类器。
3.如权利要求1所述的一种维-汉文可比语料自动获取方法,其特征在于,所述多个维-汉文可比语料为人工获取所得。
4.如权利要求1所述的一种维-汉文可比语料自动获取方法,其特征在于,所述Adaboost方法具体包括如下步骤:
(1)给定一个训练算法和训练集;
(2)初始化训练集中各个训练样本的分布,将初始时的样本分布设为均匀分布;
(3)根据训练样本的概率分布采集训练样本,得到一个弱学习器lt(x),其中,t为当前迭代次数;
(4)计算在当前得到的学习器下各训练样本的误差以及误差的平均值;
(5)计算当前学习器的权重;;
(6)调整下次迭代时的样本分布,对样本分布进行归一化处理,确保各样本的采样概率和为1;
(7)重复步骤(3)-(6),直至迭代次数为T为止;
(8)将T个弱学习器的权重归一化之后加权结合,得到最终的分类器。
5.如权利要求1所述的一种维-汉文可比语料自动获取方法,其特征在于,包括如下步骤:
获取多个维-汉文可比语料,对所述多个维-汉文可比语料进行关键字的提取,通过BP算法对所获取的关键字进行一次训练,生成学习器;
采用Adaboost方法对所得学习器进行3次迭代,分别得到弱学习器l1(x)、l2(x)、l3(x),然后进行加权输出一个用于维-汉文可比语料预测的分类器;
通过分类器完成待检测文本内维-汉文可比语料的获取。
6.如权利要求1所述的一种维-汉文可比语料自动获取方法,其特征在于,所述关键字为人工标注所得。
7.如权利要求1所述的一种维-汉文可比语料自动获取方法,其特征在于,所述多个维-汉文可比语料通过数据挖掘模块获取,该数据挖掘模块连接有一挖掘算法编辑模块,用于进行各种维-汉文可比语料挖掘算法的编辑,从而实现多种维-汉文可比语料的获取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711342028.3A CN108153835A (zh) | 2017-12-14 | 2017-12-14 | 一种维-汉文可比语料自动获取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711342028.3A CN108153835A (zh) | 2017-12-14 | 2017-12-14 | 一种维-汉文可比语料自动获取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108153835A true CN108153835A (zh) | 2018-06-12 |
Family
ID=62466151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711342028.3A Pending CN108153835A (zh) | 2017-12-14 | 2017-12-14 | 一种维-汉文可比语料自动获取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108153835A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102707256A (zh) * | 2012-06-20 | 2012-10-03 | 北京航空航天大学 | 基于BP-AdaBoost神经网络的电子式电能表故障诊断方法 |
CN103473280A (zh) * | 2013-08-28 | 2013-12-25 | 中国科学院合肥物质科学研究院 | 一种网络可比语料的挖掘方法及装置 |
CN104391885A (zh) * | 2014-11-07 | 2015-03-04 | 哈尔滨工业大学 | 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法 |
CN106529729A (zh) * | 2016-11-18 | 2017-03-22 | 同济大学 | 基于BP_Adaboost模型的信用卡用户违约的预测方法及系统 |
-
2017
- 2017-12-14 CN CN201711342028.3A patent/CN108153835A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102707256A (zh) * | 2012-06-20 | 2012-10-03 | 北京航空航天大学 | 基于BP-AdaBoost神经网络的电子式电能表故障诊断方法 |
CN103473280A (zh) * | 2013-08-28 | 2013-12-25 | 中国科学院合肥物质科学研究院 | 一种网络可比语料的挖掘方法及装置 |
CN104391885A (zh) * | 2014-11-07 | 2015-03-04 | 哈尔滨工业大学 | 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法 |
CN106529729A (zh) * | 2016-11-18 | 2017-03-22 | 同济大学 | 基于BP_Adaboost模型的信用卡用户违约的预测方法及系统 |
Non-Patent Citations (1)
Title |
---|
董元元 等: "基于BP_Adaboost的文本分类研究", 《网络安全技术与应用》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107239446B (zh) | 一种基于神经网络与注意力机制的情报关系提取方法 | |
CN110895932B (zh) | 基于语言种类和语音内容协同分类的多语言语音识别方法 | |
CN103123618B (zh) | 文本相似度获取方法和装置 | |
CN106297776B (zh) | 一种基于音频模板的语音关键词检索方法 | |
CN107957991A (zh) | 一种基于句法依赖的实体属性信息抽取方法及装置 | |
CN109543181B (zh) | 一种基于主动学习和深度学习相结合的命名实体模型和系统 | |
CN104391885B (zh) | 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法 | |
CN104731768B (zh) | 一种面向中文新闻文本的事件地点抽取方法 | |
CN106383816A (zh) | 基于深度学习的中文少数民族地区地名的识别方法 | |
CN110597998A (zh) | 一种结合句法分析的军事想定实体关系抽取方法及装置 | |
CN110457661B (zh) | 自然语言生成方法、装置、设备及存储介质 | |
CN105261358A (zh) | 用于语音识别的n元文法模型构造方法及语音识别系统 | |
CN109062894A (zh) | 中文自然语言实体语义关系的自动辨识算法 | |
CN109213856A (zh) | 一种语义识别方法及系统 | |
CN106126502A (zh) | 一种基于支持向量机的情感分类系统及方法 | |
CN107491444A (zh) | 基于双语词嵌入技术的并行化词对齐方法 | |
CN105677913A (zh) | 一种基于机器翻译的中文语义知识库的构建方法 | |
CN107807910A (zh) | 一种基于hmm的词性标注方法 | |
CN110648654A (zh) | 一种引入语言向量的语音识别增强方法和装置 | |
CN111444695B (zh) | 基于人工智能的文本生成方法、装置、设备及存储介质 | |
CN112395891A (zh) | 一种结合Bert语言模型和细粒度压缩的汉蒙翻译方法 | |
CN109359701A (zh) | 一种高精度提取和快速分类的三维模型数据解析方法 | |
CN110825852B (zh) | 面向长文本的语义匹配方法及系统 | |
CN109558569A (zh) | 一种基于BiLSTM+CRF模型的老挝语词性标注方法 | |
CN103440332B (zh) | 一种基于关系矩阵正则化增强表示的图像检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180612 |
|
RJ01 | Rejection of invention patent application after publication |