CN107608974A - 一种基于条件随机场的柬‑汉人名翻译方法 - Google Patents
一种基于条件随机场的柬‑汉人名翻译方法 Download PDFInfo
- Publication number
- CN107608974A CN107608974A CN201710630672.4A CN201710630672A CN107608974A CN 107608974 A CN107608974 A CN 107608974A CN 201710630672 A CN201710630672 A CN 201710630672A CN 107608974 A CN107608974 A CN 107608974A
- Authority
- CN
- China
- Prior art keywords
- card
- name
- chinese
- bilingual
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000013519 translation Methods 0.000 claims abstract description 37
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 13
- 238000012360 testing method Methods 0.000 claims abstract description 4
- 238000002864 sequence alignment Methods 0.000 claims description 6
- 238000007619 statistical method Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 230000000877 morphologic effect Effects 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明涉及一种基于条件随机场的柬‑汉人名翻译方法,属于自然语言处理技术领域。本发明首先对抽取的柬‑汉双语人名语料库中的柬语人名语料进行音节切分,切分后的柬‑汉双语人名音节作为训练语料,使用条件随机场构建柬‑汉双语人名翻译模型;从柬‑汉双语人名音节语料中随机选取测试语料通过已建好的柬‑汉双语人名翻译模型进行翻译,得到柬‑汉双语人名翻译结果。本发明对柬语人名实现了有效的翻译,为词法分析、句法分析和机器翻译等工作提供强有力的支撑。
Description
技术领域
本发明涉及一种基于条件随机场的柬-汉人名翻译方法,属于自然语言处理技术领域。
背景技术
柬-汉人名翻译是分词、词性标注等工作中的主要环节,是其他高层应用的基础,起着极其重要的作用。在各类柬语信息处理软件或者系统中,柬-汉人名翻译是不可或缺的工作。随着互联网搜索技术的不断提高,柬-汉人名翻译也越来越备受关注,柬-汉人名翻译的程度决定着搜索的准确率;同时柬-汉人名翻译可以提高柬语上层的词法分析、句法分析、语义分析以及机器翻译等应用效果,因此,有必要提出一种准确率高的柬-汉人名翻译方法。
发明内容
本发明提供了一种基于条件随机场的柬-汉人名翻译方法,用于解决柬埔寨语人名翻译等问题,且基于条件随机场的柬-汉人名翻译方法准确率高、能进行有效的翻译。
本发明基于条件随机场的柬-汉人名翻译方法是这样实现的:所述方法的具体步骤如下:
Step1、首先对抽取的柬-汉双语人名语料库中的柬语人名语料进行音节切分,切分后的柬-汉双语人名音节作为训练语料,使用条件随机场(CRFs)构建柬-汉双语人名翻译模型;
Step2、从柬-汉双语人名音节语料中随机选取测试语料通过已建好的柬-汉双语人名翻译模型进行翻译,得到柬-汉双语人名翻译结果。
所述步骤Step1中柬-汉双语人名翻译模型的具体步骤如下:
Step1.1、首先从互联网上爬取出柬-汉双语平行语料网页信息;
Step1.2、把爬取出的网页信息,经过滤噪音、去垃圾网页处理,构建出柬-汉双语平行语料库,并存放到数据库;
Step1.3、从Step1.2数据库中取出柬-汉双语平行语料,使用柬-汉人名实体抽取工具对柬-汉双语平行语料进行柬-汉双语人名识别,得到柬-汉双语人名实体语料库,并把柬-汉双语人名实体语料库存放到数据库中;
Step1.4、从Step1.3数据库中取出柬-汉双语人名实体语料中的柬语人名语料,采用条件随机场开发的柬语音节切分工具进行柬语人名音节切分,得到柬语人名音节语料,将汉语人名转化为中文人名汉字序列,将柬语人名音节语料与中文人名汉字序列对齐,得到柬-汉双语人名音节语料,并把柬-汉双语人名音节语料存放到数据库中;
Step1.5、根据柬-汉双语人名翻译特点,从步骤Step1.4中柬-汉双语人名音节语料中提取柬-汉双语人名特征,提取的特征包括柬-汉人名音节上下文特征、柬-汉人名音节序列上下文特征、柬-汉人名标注之间的转移特征;
Step1.6、根据提取的柬-汉双语人名的特征,制定条件随机场模型中所需要的基本特征模板训练样式;
Step1.7、从Step1.4数据库中取出柬-汉双语人名音节语料作为训练语料,结合从Step1.5中选取的特征,用条件随机场以及其基本特征模板训练样式统计分析进行训练,得到基于条件随机场模型的柬-汉双语人名翻译模型;
所述步骤Step1.2的具体步骤:
Step1.2.1、对爬取的网页进行有效的过滤,去除无效网页;
Step1.2.2、对得到的有效网页进行去重、去噪音和去垃圾信息的预处理操作。
所述步骤Step1.3的具体步骤:
Step1.3.1、从Step1.2数据库中取出柬-汉双语平行语料,得到柬-汉双语平行语料;
Step1.3.2、从Step1.3.1中获取柬-汉双语平行语料,使用柬埔寨人名实体抽取工具对柬-汉双语平行语料进行柬语人名识别,得到柬语人名实体语料库;
Step1.3.3、从Step1.3.1中获取柬-汉双语平行语料,使用汉语人名实体抽取工具对汉语语料进行汉语人名识别,得到汉语人名实体语料库;
Step1.3.4、对Step1.3.2和Step1.3.3中得到的柬-汉双语人名实体语料库存放到数据库中。
所述步骤Step1.4的具体步骤:
Step1.4.1、从Step1.3数据库中取出柬-汉双语人名实体语料,得到柬-汉双语人名实体语料;
Step1.4.2、从Step1.4.1中获取柬-汉双语人名实体语料,对柬-汉双语人名实体语料进行整理、去重操作,得到无噪音的柬-汉双语人名实体语料;
Step1.4.3、从Step1.4.2数据库取出无噪音的柬-汉双语人名实体语料中的柬语人名实体语料,使用柬语音节切分工具进行柬语人名音节切分,得到柬语人名音节语料;
Step1.4.4、将汉语人名转化为中文人名汉字序列,得到中文人名汉字序列;
Step1.4.5、从Step1.4.3和Step1.4.4数据库中取出柬语人名音节语料、中文人名汉字序列,将柬语人名音节语料与中文人名汉字序列对齐,并把柬-汉双语人名音节语料存放到数据库中。
所述步骤Step1.4的中:构建了柬-汉双语人名实体库包括1468条。 本发明的有益效果是: 1、本文提出的基于条件随机场的柬-汉人名翻译方法,对柬-汉人名实现了有效的翻译,准确率高,为词法分析、句法分析以及上层机器人名翻译提供有力支撑。 2、目前,柬埔寨语做相关的人名翻译的研究甚少,没有可供研究的资源,本文丰富了柬-汉人名翻译领域。
附图说明
图1为本发明中柬-汉人名翻译的总的流程图;
图2为本发明中柬-汉人名翻译的建模流程图。
具体实施方式
实施例1:如图1-2所示,一种基于条件随机场的柬-汉人名翻译方法,所述方法的具体步骤如下:
Step1、首先对抽取的柬-汉双语人名语料库中的柬语人名语料进行音节切分,切分后的柬-汉双语人名音节作为训练语料,使用条件随机场(CRFs)构建柬-汉双语人名翻译模型;
进一步的,所述步骤Step1中柬-汉双语人名翻译模型的具体步骤如下:
Step1.1、首先从互联网上爬取出柬-汉双语平行语料网页信息;
Step1.2、把爬取出的网页信息,经过滤噪音、去垃圾网页处理,构建出柬-汉双语平行语料库,并存放到数据库;
进一步的,所述步骤Step1.2的具体步骤:
Step1.2.1、对爬取的网页进行有效的过滤,去除无效网页;
Step1.2.2、对得到的有效网页进行去重、去噪音和去垃圾信息的预处理操作。
Step1.3、从Step1.2数据库中取出柬-汉双语平行语料,使用柬-汉人名实体抽取工具对柬-汉双语平行语料进行柬-汉双语人名识别,得到柬-汉双语人名实体语料库,并把柬-汉双语人名实体语料库存放到数据库中;
进一步的,所述步骤Step1.3的具体步骤:
Step1.3.1、从Step1.2数据库中取出柬-汉双语平行语料,得到柬-汉双语平行语料;
Step1.3.2、从Step1.3.1中获取柬-汉双语平行语料,使用柬埔寨人名实体抽取工具对柬-汉双语平行语料进行柬语人名识别,得到柬语人名实体语料库;
Step1.3.3、从Step1.3.1中获取柬-汉双语平行语料,使用汉语人名实体抽取工具对汉语语料进行汉语人名识别,得到汉语人名实体语料库;
Step1.3.4、对Step1.3.2和Step1.3.3中得到的柬-汉双语人名实体语料库存放到数据库中。
Step1.4、从Step1.3数据库中取出柬-汉双语人名实体语料中的柬语人名语料,采用条件随机场开发的柬语音节切分工具进行柬语人名音节切分,得到柬语人名音节语料,将汉语人名转化为中文人名汉字序列,将柬语人名音节语料与中文人名汉字序列对齐,得到柬-汉双语人名音节语料,并把柬-汉双语人名音节语料存放到数据库中;
进一步的,所述步骤Step1.4的具体步骤:
Step1.4.1、从Step1.3数据库中取出柬-汉双语人名实体语料,得到柬-汉双语人名实体语料;
Step1.4.2、从Step1.4.1中获取柬-汉双语人名实体语料,对柬-汉双语人名实体语料进行整理、去重操作,得到无噪音的柬-汉双语人名实体语料;
Step1.4.3、从Step1.4.2数据库取出无噪音的柬-汉双语人名实体语料中的柬语人名实体语料,使用柬语音节切分工具进行柬语人名音节切分,得到柬语人名音节语料;
Step1.4.4、将汉语人名转化为中文人名汉字序列,得到中文人名汉字序列;
Step1.4.5、从Step1.4.3和Step1.4.4数据库中取出柬语人名音节语料、中文人名汉字序列,将柬语人名音节语料与中文人名汉字序列对齐,并把柬-汉双语人名音节语料存放到数据库中。
Step1.5、根据柬-汉双语人名翻译特点,从步骤Step1.4中柬-汉双语人名音节语料中提取柬-汉双语人名特征,提取的特征包括柬-汉人名音节上下文特征、柬-汉人名音节序列上下文特征、柬-汉人名标注之间的转移特征;
Step1.6、根据提取的柬-汉双语人名的特征,制定条件随机场模型中所需要的基本特征模板训练样式;
Step1.7、从Step1.4数据库中取出柬-汉双语人名音节语料作为训练语料,结合从Step1.5中选取的特征,用条件随机场以及其基本特征模板训练样式统计分析进行训练,得到基于条件随机场模型的柬-汉双语人名翻译模型;
Step2、从柬-汉双语人名音节语料中随机选取测试语料通过已建好的柬-汉双语人名翻译模型进行翻译,得到柬-汉双语人名翻译结果。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (6)
1.一种基于条件随机场的柬-汉人名翻译方法,其特征在于:所述方法的具体步骤如下:
Step1、首先对抽取的柬-汉双语人名语料库中的柬语人名语料进行音节切分,切分后的柬-汉双语人名音节作为训练语料,使用条件随机场构建柬-汉双语人名翻译模型;
Step2、从柬-汉双语人名音节语料中随机选取测试语料通过已建好的柬-汉双语人名翻译模型进行翻译,得到柬-汉双语人名翻译结果。
2.根据权利要求1所述的基于条件随机场的柬-汉人名翻译方法,其特征在于:
所述步骤Step1中柬-汉双语人名翻译模型的具体步骤如下:
Step1.1、首先从互联网上爬取出柬-汉双语平行语料网页信息;
Step1.2、把爬取出的网页信息,经过滤噪音、去垃圾网页处理,构建出柬-汉双语平行语料库,并存放到数据库;
Step1.3、从Step1.2数据库中取出柬-汉双语平行语料,使用柬-汉人名实体抽取工具对柬-汉双语平行语料进行柬-汉双语人名识别,得到柬-汉双语人名实体语料库,并把柬-汉双语人名实体语料库存放到数据库中;
Step1.4、从Step1.3数据库中取出柬-汉双语人名实体语料中的柬语人名语料,采用条件随机场开发的柬语音节切分工具进行柬语人名音节切分,得到柬语人名音节语料,将汉语人名转化为中文人名汉字序列,将柬语人名音节语料与中文人名汉字序列对齐,得到柬-汉双语人名音节语料,并把柬-汉双语人名音节语料存放到数据库中;
Step1.5、根据柬-汉双语人名翻译特点,从步骤Step1.4中柬-汉双语人名音节语料中提取柬-汉双语人名特征,提取的特征包括柬-汉人名音节上下文特征、柬-汉人名音节序列上下文特征、柬-汉人名标注之间的转移特征;
Step1.6、根据提取的柬-汉双语人名的特征,制定条件随机场模型中所需要的基本特征模板训练样式;
Step1.7、从Step1.4数据库中取出柬-汉双语人名音节语料作为训练语料,结合从Step1.5中选取的特征,用条件随机场以及其基本特征模板训练样式统计分析进行训练,得到基于条件随机场模型的柬-汉双语人名翻译模型。
3.根据权利要求2所述的基于条件随机场的柬-汉人名翻译方法,其特征在于:
所述步骤Step1.2的具体步骤:
Step1.2.1、对爬取的网页进行有效的过滤,去除无效网页;
Step1.2.2、对得到的有效网页进行去重、去噪音和去垃圾信息的预处理操作。
4.根据权利要求2所述的基于条件随机场的柬-汉人名翻译方法,其特征在于:所述步骤Step1.3的具体步骤:
Step1.3.1、从Step1.2数据库中取出柬-汉双语平行语料,得到柬-汉双语平行语料;
Step1.3.2、从Step1.3.1中获取柬-汉双语平行语料,使用柬埔寨人名实体抽取工具对柬-汉双语平行语料进行柬语人名识别,得到柬语人名实体语料库;
Step1.3.3、从Step1.3.1中获取柬-汉双语平行语料,使用汉语人名实体抽取工具对汉语语料进行汉语人名识别,得到汉语人名实体语料库;
Step1.3.4、对Step1.3.2和Step1.3.3中得到的柬-汉双语人名实体语料库存放到数据库中。
5.根据权利要求2所述的基于条件随机场的柬-汉人名翻译方法,其特征在于:所述步骤Step1.4的具体步骤:
Step1.4.1、从Step1.3数据库中取出柬-汉双语人名实体语料,得到柬-汉双语人名实体语料;
Step1.4.2、从Step1.4.1中获取柬-汉双语人名实体语料,对柬-汉双语人名实体语料进行整理、去重操作,得到无噪音的柬-汉双语人名实体语料;
Step1.4.3、从Step1.4.2数据库取出无噪音的柬-汉双语人名实体语料中的柬语人名实体语料,使用柬语音节切分工具进行柬语人名音节切分,得到柬语人名音节语料;
Step1.4.4、将汉语人名转化为中文人名汉字序列,得到中文人名汉字序列;
Step1.4.5、从Step1.4.3和Step1.4.4数据库中取出柬语人名音节语料、中文人名汉字序列,将柬语人名音节语料与中文人名汉字序列对齐,并把柬-汉双语人名音节语料存放到数据库中。
6.根据权利要求2所述的基于条件随机场的柬-汉人名翻译方法,其特征在于,所述步骤Step1.4的中:构建了柬-汉双语人名实体库包括1468条。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710630672.4A CN107608974A (zh) | 2017-07-28 | 2017-07-28 | 一种基于条件随机场的柬‑汉人名翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710630672.4A CN107608974A (zh) | 2017-07-28 | 2017-07-28 | 一种基于条件随机场的柬‑汉人名翻译方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107608974A true CN107608974A (zh) | 2018-01-19 |
Family
ID=61059639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710630672.4A Pending CN107608974A (zh) | 2017-07-28 | 2017-07-28 | 一种基于条件随机场的柬‑汉人名翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107608974A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344233A (zh) * | 2018-08-28 | 2019-02-15 | 昆明理工大学 | 一种中文人名识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101676898A (zh) * | 2008-09-17 | 2010-03-24 | 中国科学院自动化研究所 | 一种借助网络知识辅助的汉英机构名翻译方法及装置 |
CN104978311A (zh) * | 2015-07-15 | 2015-10-14 | 昆明理工大学 | 一种基于条件随机场的越南语分词方法 |
-
2017
- 2017-07-28 CN CN201710630672.4A patent/CN107608974A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101676898A (zh) * | 2008-09-17 | 2010-03-24 | 中国科学院自动化研究所 | 一种借助网络知识辅助的汉英机构名翻译方法及装置 |
CN104978311A (zh) * | 2015-07-15 | 2015-10-14 | 昆明理工大学 | 一种基于条件随机场的越南语分词方法 |
Non-Patent Citations (1)
Title |
---|
邹波,赵军: "英汉人名音译方法研究", 《第四届全国学生计算语言学研讨会会议论文集》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344233A (zh) * | 2018-08-28 | 2019-02-15 | 昆明理工大学 | 一种中文人名识别方法 |
CN109344233B (zh) * | 2018-08-28 | 2022-07-19 | 昆明理工大学 | 一种中文人名识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108319668A (zh) | 生成文本摘要的方法及设备 | |
CN109635297B (zh) | 一种实体消歧方法、装置、计算机装置及计算机存储介质 | |
CN109408642A (zh) | 一种基于距离监督的领域实体属性关系抽取方法 | |
CN105843965B (zh) | 一种基于url主题分类的深层网络爬虫表单填充方法和装置 | |
CN109670041A (zh) | 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法 | |
CN103823857B (zh) | 基于自然语言处理的空间信息检索方法 | |
CN105956052A (zh) | 一种基于垂直领域的知识图谱的构建方法 | |
CN110414009B (zh) | 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置 | |
CN104765769A (zh) | 一种基于词矢量的短文本查询扩展及检索方法 | |
Hamdi et al. | In-depth analysis of the impact of OCR errors on named entity recognition and linking | |
CN103116578A (zh) | 一种融合句法树和统计机器翻译技术的翻译方法与装置 | |
CN103294781A (zh) | 一种用于处理页面数据的方法与设备 | |
CN105975455A (zh) | 基于双向递归神经网络的信息分析系统 | |
CN104899188A (zh) | 一种基于问题主题和焦点的问题相似度计算方法 | |
CN101308512B (zh) | 一种基于网页的互译翻译对抽取方法及装置 | |
CN1629837A (zh) | 电子文档的处理、浏览及分类查询的方法、装置及其系统 | |
CN113407842B (zh) | 模型训练方法、主题推荐理由的获取方法及系统、电子设备 | |
CN113343717A (zh) | 一种基于翻译记忆库的神经机器翻译方法 | |
CN106202039A (zh) | 基于条件随机场的越南语组合词消歧方法 | |
CN111814476A (zh) | 一种实体关系的抽取方法和装置 | |
CN114372454B (zh) | 文本信息抽取方法、模型训练方法、装置及存储介质 | |
CN114065749A (zh) | 一种面向文本的粤语识别模型及系统的训练、识别方法 | |
CN106528509A (zh) | 网页信息提取方法及装置 | |
CN1629843A (zh) | 电子文档的处理、浏览及搜索的方法、装置及其系统 | |
Hedar et al. | Mining social networks arabic slang comments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180119 |