CN107608974A - 一种基于条件随机场的柬‑汉人名翻译方法 - Google Patents

一种基于条件随机场的柬‑汉人名翻译方法 Download PDF

Info

Publication number
CN107608974A
CN107608974A CN201710630672.4A CN201710630672A CN107608974A CN 107608974 A CN107608974 A CN 107608974A CN 201710630672 A CN201710630672 A CN 201710630672A CN 107608974 A CN107608974 A CN 107608974A
Authority
CN
China
Prior art keywords
card
name
chinese
bilingual
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710630672.4A
Other languages
English (en)
Inventor
严馨
郭月江
雷青玲
余正涛
周兰江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201710630672.4A priority Critical patent/CN107608974A/zh
Publication of CN107608974A publication Critical patent/CN107608974A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种基于条件随机场的柬‑汉人名翻译方法,属于自然语言处理技术领域。本发明首先对抽取的柬‑汉双语人名语料库中的柬语人名语料进行音节切分,切分后的柬‑汉双语人名音节作为训练语料,使用条件随机场构建柬‑汉双语人名翻译模型;从柬‑汉双语人名音节语料中随机选取测试语料通过已建好的柬‑汉双语人名翻译模型进行翻译,得到柬‑汉双语人名翻译结果。本发明对柬语人名实现了有效的翻译,为词法分析、句法分析和机器翻译等工作提供强有力的支撑。

Description

一种基于条件随机场的柬-汉人名翻译方法
技术领域
本发明涉及一种基于条件随机场的柬-汉人名翻译方法,属于自然语言处理技术领域。
背景技术
柬-汉人名翻译是分词、词性标注等工作中的主要环节,是其他高层应用的基础,起着极其重要的作用。在各类柬语信息处理软件或者系统中,柬-汉人名翻译是不可或缺的工作。随着互联网搜索技术的不断提高,柬-汉人名翻译也越来越备受关注,柬-汉人名翻译的程度决定着搜索的准确率;同时柬-汉人名翻译可以提高柬语上层的词法分析、句法分析、语义分析以及机器翻译等应用效果,因此,有必要提出一种准确率高的柬-汉人名翻译方法。
发明内容
本发明提供了一种基于条件随机场的柬-汉人名翻译方法,用于解决柬埔寨语人名翻译等问题,且基于条件随机场的柬-汉人名翻译方法准确率高、能进行有效的翻译。
本发明基于条件随机场的柬-汉人名翻译方法是这样实现的:所述方法的具体步骤如下:
Step1、首先对抽取的柬-汉双语人名语料库中的柬语人名语料进行音节切分,切分后的柬-汉双语人名音节作为训练语料,使用条件随机场(CRFs)构建柬-汉双语人名翻译模型;
Step2、从柬-汉双语人名音节语料中随机选取测试语料通过已建好的柬-汉双语人名翻译模型进行翻译,得到柬-汉双语人名翻译结果。
所述步骤Step1中柬-汉双语人名翻译模型的具体步骤如下:
Step1.1、首先从互联网上爬取出柬-汉双语平行语料网页信息;
Step1.2、把爬取出的网页信息,经过滤噪音、去垃圾网页处理,构建出柬-汉双语平行语料库,并存放到数据库;
Step1.3、从Step1.2数据库中取出柬-汉双语平行语料,使用柬-汉人名实体抽取工具对柬-汉双语平行语料进行柬-汉双语人名识别,得到柬-汉双语人名实体语料库,并把柬-汉双语人名实体语料库存放到数据库中;
Step1.4、从Step1.3数据库中取出柬-汉双语人名实体语料中的柬语人名语料,采用条件随机场开发的柬语音节切分工具进行柬语人名音节切分,得到柬语人名音节语料,将汉语人名转化为中文人名汉字序列,将柬语人名音节语料与中文人名汉字序列对齐,得到柬-汉双语人名音节语料,并把柬-汉双语人名音节语料存放到数据库中;
Step1.5、根据柬-汉双语人名翻译特点,从步骤Step1.4中柬-汉双语人名音节语料中提取柬-汉双语人名特征,提取的特征包括柬-汉人名音节上下文特征、柬-汉人名音节序列上下文特征、柬-汉人名标注之间的转移特征;
Step1.6、根据提取的柬-汉双语人名的特征,制定条件随机场模型中所需要的基本特征模板训练样式;
Step1.7、从Step1.4数据库中取出柬-汉双语人名音节语料作为训练语料,结合从Step1.5中选取的特征,用条件随机场以及其基本特征模板训练样式统计分析进行训练,得到基于条件随机场模型的柬-汉双语人名翻译模型;
所述步骤Step1.2的具体步骤:
Step1.2.1、对爬取的网页进行有效的过滤,去除无效网页;
Step1.2.2、对得到的有效网页进行去重、去噪音和去垃圾信息的预处理操作。
所述步骤Step1.3的具体步骤:
Step1.3.1、从Step1.2数据库中取出柬-汉双语平行语料,得到柬-汉双语平行语料;
Step1.3.2、从Step1.3.1中获取柬-汉双语平行语料,使用柬埔寨人名实体抽取工具对柬-汉双语平行语料进行柬语人名识别,得到柬语人名实体语料库;
Step1.3.3、从Step1.3.1中获取柬-汉双语平行语料,使用汉语人名实体抽取工具对汉语语料进行汉语人名识别,得到汉语人名实体语料库;
Step1.3.4、对Step1.3.2和Step1.3.3中得到的柬-汉双语人名实体语料库存放到数据库中。
所述步骤Step1.4的具体步骤:
Step1.4.1、从Step1.3数据库中取出柬-汉双语人名实体语料,得到柬-汉双语人名实体语料;
Step1.4.2、从Step1.4.1中获取柬-汉双语人名实体语料,对柬-汉双语人名实体语料进行整理、去重操作,得到无噪音的柬-汉双语人名实体语料;
Step1.4.3、从Step1.4.2数据库取出无噪音的柬-汉双语人名实体语料中的柬语人名实体语料,使用柬语音节切分工具进行柬语人名音节切分,得到柬语人名音节语料;
Step1.4.4、将汉语人名转化为中文人名汉字序列,得到中文人名汉字序列;
Step1.4.5、从Step1.4.3和Step1.4.4数据库中取出柬语人名音节语料、中文人名汉字序列,将柬语人名音节语料与中文人名汉字序列对齐,并把柬-汉双语人名音节语料存放到数据库中。
所述步骤Step1.4的中:构建了柬-汉双语人名实体库包括1468条。 本发明的有益效果是: 1、本文提出的基于条件随机场的柬-汉人名翻译方法,对柬-汉人名实现了有效的翻译,准确率高,为词法分析、句法分析以及上层机器人名翻译提供有力支撑。 2、目前,柬埔寨语做相关的人名翻译的研究甚少,没有可供研究的资源,本文丰富了柬-汉人名翻译领域。
附图说明
图1为本发明中柬-汉人名翻译的总的流程图;
图2为本发明中柬-汉人名翻译的建模流程图。
具体实施方式
实施例1:如图1-2所示,一种基于条件随机场的柬-汉人名翻译方法,所述方法的具体步骤如下:
Step1、首先对抽取的柬-汉双语人名语料库中的柬语人名语料进行音节切分,切分后的柬-汉双语人名音节作为训练语料,使用条件随机场(CRFs)构建柬-汉双语人名翻译模型;
进一步的,所述步骤Step1中柬-汉双语人名翻译模型的具体步骤如下:
Step1.1、首先从互联网上爬取出柬-汉双语平行语料网页信息;
Step1.2、把爬取出的网页信息,经过滤噪音、去垃圾网页处理,构建出柬-汉双语平行语料库,并存放到数据库;
进一步的,所述步骤Step1.2的具体步骤:
Step1.2.1、对爬取的网页进行有效的过滤,去除无效网页;
Step1.2.2、对得到的有效网页进行去重、去噪音和去垃圾信息的预处理操作。
Step1.3、从Step1.2数据库中取出柬-汉双语平行语料,使用柬-汉人名实体抽取工具对柬-汉双语平行语料进行柬-汉双语人名识别,得到柬-汉双语人名实体语料库,并把柬-汉双语人名实体语料库存放到数据库中;
进一步的,所述步骤Step1.3的具体步骤:
Step1.3.1、从Step1.2数据库中取出柬-汉双语平行语料,得到柬-汉双语平行语料;
Step1.3.2、从Step1.3.1中获取柬-汉双语平行语料,使用柬埔寨人名实体抽取工具对柬-汉双语平行语料进行柬语人名识别,得到柬语人名实体语料库;
Step1.3.3、从Step1.3.1中获取柬-汉双语平行语料,使用汉语人名实体抽取工具对汉语语料进行汉语人名识别,得到汉语人名实体语料库;
Step1.3.4、对Step1.3.2和Step1.3.3中得到的柬-汉双语人名实体语料库存放到数据库中。
Step1.4、从Step1.3数据库中取出柬-汉双语人名实体语料中的柬语人名语料,采用条件随机场开发的柬语音节切分工具进行柬语人名音节切分,得到柬语人名音节语料,将汉语人名转化为中文人名汉字序列,将柬语人名音节语料与中文人名汉字序列对齐,得到柬-汉双语人名音节语料,并把柬-汉双语人名音节语料存放到数据库中;
进一步的,所述步骤Step1.4的具体步骤:
Step1.4.1、从Step1.3数据库中取出柬-汉双语人名实体语料,得到柬-汉双语人名实体语料;
Step1.4.2、从Step1.4.1中获取柬-汉双语人名实体语料,对柬-汉双语人名实体语料进行整理、去重操作,得到无噪音的柬-汉双语人名实体语料;
Step1.4.3、从Step1.4.2数据库取出无噪音的柬-汉双语人名实体语料中的柬语人名实体语料,使用柬语音节切分工具进行柬语人名音节切分,得到柬语人名音节语料;
Step1.4.4、将汉语人名转化为中文人名汉字序列,得到中文人名汉字序列;
Step1.4.5、从Step1.4.3和Step1.4.4数据库中取出柬语人名音节语料、中文人名汉字序列,将柬语人名音节语料与中文人名汉字序列对齐,并把柬-汉双语人名音节语料存放到数据库中。
Step1.5、根据柬-汉双语人名翻译特点,从步骤Step1.4中柬-汉双语人名音节语料中提取柬-汉双语人名特征,提取的特征包括柬-汉人名音节上下文特征、柬-汉人名音节序列上下文特征、柬-汉人名标注之间的转移特征;
Step1.6、根据提取的柬-汉双语人名的特征,制定条件随机场模型中所需要的基本特征模板训练样式;
Step1.7、从Step1.4数据库中取出柬-汉双语人名音节语料作为训练语料,结合从Step1.5中选取的特征,用条件随机场以及其基本特征模板训练样式统计分析进行训练,得到基于条件随机场模型的柬-汉双语人名翻译模型;
Step2、从柬-汉双语人名音节语料中随机选取测试语料通过已建好的柬-汉双语人名翻译模型进行翻译,得到柬-汉双语人名翻译结果。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (6)

1.一种基于条件随机场的柬-汉人名翻译方法,其特征在于:所述方法的具体步骤如下:
Step1、首先对抽取的柬-汉双语人名语料库中的柬语人名语料进行音节切分,切分后的柬-汉双语人名音节作为训练语料,使用条件随机场构建柬-汉双语人名翻译模型;
Step2、从柬-汉双语人名音节语料中随机选取测试语料通过已建好的柬-汉双语人名翻译模型进行翻译,得到柬-汉双语人名翻译结果。
2.根据权利要求1所述的基于条件随机场的柬-汉人名翻译方法,其特征在于:
所述步骤Step1中柬-汉双语人名翻译模型的具体步骤如下:
Step1.1、首先从互联网上爬取出柬-汉双语平行语料网页信息;
Step1.2、把爬取出的网页信息,经过滤噪音、去垃圾网页处理,构建出柬-汉双语平行语料库,并存放到数据库;
Step1.3、从Step1.2数据库中取出柬-汉双语平行语料,使用柬-汉人名实体抽取工具对柬-汉双语平行语料进行柬-汉双语人名识别,得到柬-汉双语人名实体语料库,并把柬-汉双语人名实体语料库存放到数据库中;
Step1.4、从Step1.3数据库中取出柬-汉双语人名实体语料中的柬语人名语料,采用条件随机场开发的柬语音节切分工具进行柬语人名音节切分,得到柬语人名音节语料,将汉语人名转化为中文人名汉字序列,将柬语人名音节语料与中文人名汉字序列对齐,得到柬-汉双语人名音节语料,并把柬-汉双语人名音节语料存放到数据库中;
Step1.5、根据柬-汉双语人名翻译特点,从步骤Step1.4中柬-汉双语人名音节语料中提取柬-汉双语人名特征,提取的特征包括柬-汉人名音节上下文特征、柬-汉人名音节序列上下文特征、柬-汉人名标注之间的转移特征;
Step1.6、根据提取的柬-汉双语人名的特征,制定条件随机场模型中所需要的基本特征模板训练样式;
Step1.7、从Step1.4数据库中取出柬-汉双语人名音节语料作为训练语料,结合从Step1.5中选取的特征,用条件随机场以及其基本特征模板训练样式统计分析进行训练,得到基于条件随机场模型的柬-汉双语人名翻译模型。
3.根据权利要求2所述的基于条件随机场的柬-汉人名翻译方法,其特征在于:
所述步骤Step1.2的具体步骤:
Step1.2.1、对爬取的网页进行有效的过滤,去除无效网页;
Step1.2.2、对得到的有效网页进行去重、去噪音和去垃圾信息的预处理操作。
4.根据权利要求2所述的基于条件随机场的柬-汉人名翻译方法,其特征在于:所述步骤Step1.3的具体步骤:
Step1.3.1、从Step1.2数据库中取出柬-汉双语平行语料,得到柬-汉双语平行语料;
Step1.3.2、从Step1.3.1中获取柬-汉双语平行语料,使用柬埔寨人名实体抽取工具对柬-汉双语平行语料进行柬语人名识别,得到柬语人名实体语料库;
Step1.3.3、从Step1.3.1中获取柬-汉双语平行语料,使用汉语人名实体抽取工具对汉语语料进行汉语人名识别,得到汉语人名实体语料库;
Step1.3.4、对Step1.3.2和Step1.3.3中得到的柬-汉双语人名实体语料库存放到数据库中。
5.根据权利要求2所述的基于条件随机场的柬-汉人名翻译方法,其特征在于:所述步骤Step1.4的具体步骤:
Step1.4.1、从Step1.3数据库中取出柬-汉双语人名实体语料,得到柬-汉双语人名实体语料;
Step1.4.2、从Step1.4.1中获取柬-汉双语人名实体语料,对柬-汉双语人名实体语料进行整理、去重操作,得到无噪音的柬-汉双语人名实体语料;
Step1.4.3、从Step1.4.2数据库取出无噪音的柬-汉双语人名实体语料中的柬语人名实体语料,使用柬语音节切分工具进行柬语人名音节切分,得到柬语人名音节语料;
Step1.4.4、将汉语人名转化为中文人名汉字序列,得到中文人名汉字序列;
Step1.4.5、从Step1.4.3和Step1.4.4数据库中取出柬语人名音节语料、中文人名汉字序列,将柬语人名音节语料与中文人名汉字序列对齐,并把柬-汉双语人名音节语料存放到数据库中。
6.根据权利要求2所述的基于条件随机场的柬-汉人名翻译方法,其特征在于,所述步骤Step1.4的中:构建了柬-汉双语人名实体库包括1468条。
CN201710630672.4A 2017-07-28 2017-07-28 一种基于条件随机场的柬‑汉人名翻译方法 Pending CN107608974A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710630672.4A CN107608974A (zh) 2017-07-28 2017-07-28 一种基于条件随机场的柬‑汉人名翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710630672.4A CN107608974A (zh) 2017-07-28 2017-07-28 一种基于条件随机场的柬‑汉人名翻译方法

Publications (1)

Publication Number Publication Date
CN107608974A true CN107608974A (zh) 2018-01-19

Family

ID=61059639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710630672.4A Pending CN107608974A (zh) 2017-07-28 2017-07-28 一种基于条件随机场的柬‑汉人名翻译方法

Country Status (1)

Country Link
CN (1) CN107608974A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344233A (zh) * 2018-08-28 2019-02-15 昆明理工大学 一种中文人名识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101676898A (zh) * 2008-09-17 2010-03-24 中国科学院自动化研究所 一种借助网络知识辅助的汉英机构名翻译方法及装置
CN104978311A (zh) * 2015-07-15 2015-10-14 昆明理工大学 一种基于条件随机场的越南语分词方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101676898A (zh) * 2008-09-17 2010-03-24 中国科学院自动化研究所 一种借助网络知识辅助的汉英机构名翻译方法及装置
CN104978311A (zh) * 2015-07-15 2015-10-14 昆明理工大学 一种基于条件随机场的越南语分词方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邹波,赵军: "英汉人名音译方法研究", 《第四届全国学生计算语言学研讨会会议论文集》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344233A (zh) * 2018-08-28 2019-02-15 昆明理工大学 一种中文人名识别方法
CN109344233B (zh) * 2018-08-28 2022-07-19 昆明理工大学 一种中文人名识别方法

Similar Documents

Publication Publication Date Title
CN108319668A (zh) 生成文本摘要的方法及设备
CN109635297B (zh) 一种实体消歧方法、装置、计算机装置及计算机存储介质
CN109408642A (zh) 一种基于距离监督的领域实体属性关系抽取方法
CN105843965B (zh) 一种基于url主题分类的深层网络爬虫表单填充方法和装置
CN109670041A (zh) 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法
CN103823857B (zh) 基于自然语言处理的空间信息检索方法
CN105956052A (zh) 一种基于垂直领域的知识图谱的构建方法
CN110414009B (zh) 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置
CN104765769A (zh) 一种基于词矢量的短文本查询扩展及检索方法
Hamdi et al. In-depth analysis of the impact of OCR errors on named entity recognition and linking
CN103116578A (zh) 一种融合句法树和统计机器翻译技术的翻译方法与装置
CN103294781A (zh) 一种用于处理页面数据的方法与设备
CN105975455A (zh) 基于双向递归神经网络的信息分析系统
CN104899188A (zh) 一种基于问题主题和焦点的问题相似度计算方法
CN101308512B (zh) 一种基于网页的互译翻译对抽取方法及装置
CN1629837A (zh) 电子文档的处理、浏览及分类查询的方法、装置及其系统
CN113407842B (zh) 模型训练方法、主题推荐理由的获取方法及系统、电子设备
CN113343717A (zh) 一种基于翻译记忆库的神经机器翻译方法
CN106202039A (zh) 基于条件随机场的越南语组合词消歧方法
CN111814476A (zh) 一种实体关系的抽取方法和装置
CN114372454B (zh) 文本信息抽取方法、模型训练方法、装置及存储介质
CN114065749A (zh) 一种面向文本的粤语识别模型及系统的训练、识别方法
CN106528509A (zh) 网页信息提取方法及装置
CN1629843A (zh) 电子文档的处理、浏览及搜索的方法、装置及其系统
Hedar et al. Mining social networks arabic slang comments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180119