CN104679735A - 语用机器翻译方法 - Google Patents

语用机器翻译方法 Download PDF

Info

Publication number
CN104679735A
CN104679735A CN201310624188.2A CN201310624188A CN104679735A CN 104679735 A CN104679735 A CN 104679735A CN 201310624188 A CN201310624188 A CN 201310624188A CN 104679735 A CN104679735 A CN 104679735A
Authority
CN
China
Prior art keywords
language
module
translation
sentence
cutting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310624188.2A
Other languages
English (en)
Inventor
赵会军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201310624188.2A priority Critical patent/CN104679735A/zh
Publication of CN104679735A publication Critical patent/CN104679735A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

语用机器翻译方法集成了机器翻译的最前沿技术和语用学翻译理念,从词语、句法、语法和篇章层面上进行深层语言学分析和结构逻辑处理。可以有效解决机器翻译句子结果的顺序混乱问题。语用的方法按照语言的线性结构来切分语言结构,遵循语用学的只要是现实当中使用的语言就是正确的这个原则来行事。核心的方法就是通过设置多个语言子库,与原文进行交叉定位并提取关键信息,以此为依据对原文进行切分,并对切分单元进行重新排序。将重新排序结果进行目标语对齐,最后根据目标语的表达规范将对齐的结果进行规范化处理,最后得到符合目标语言表达习惯的翻译结果。对非格式化语言的复杂结构句子的全自动翻译效果已经明显超过目前最好的其他的自动翻译系统。

Description

语用机器翻译方法
技术领域
本发明涉及机器翻译技术,是语用翻译方法在机器翻译中的具体应用。可用于移动终端APP自动翻译、电脑终端自动翻译、新闻和资料的自动翻译处理系统、国际电子商务自动语言转换、旅游服务、教学科研、智能机器人、语音翻译系统后台处理等方面。
背景技术
机器翻译就是应用计算机将一种语言自动翻译成另一种语言的复杂合成系统。目前几乎所有最先进的机器翻译系统都是基于统计的机器翻译系统,通过对大量实例的双语语料库对齐概率统计,运用各种不同的算法降低误差率,以期得到满意的翻译结果。
统计机器翻译历经十余年的发展并没有突破性的进展,某种算法的推出对翻译质量尽管也有一定的积极意义,但很多情况下都是有限的、局部的、不完全的测试结果。
很多专家认为,语言学模型的引导是机器翻译所不可或缺的,有些统计机器翻译系统试图开始加入语法规则来改善翻译质量,但往往是一种规则的运用会对另外一种规则产生负面影响,综合效用并不理想。
运用语义方法进行机器翻译的研究虽然取得了一定进展,但依然无法很好地融合在应用中。
目前,基于统计机器翻译的词语对齐的准确率比较高,相对于翻译结果的个别词语不准确的现象,混乱的词语排列顺序一直是统计机器翻译所要亟需解决的难题。
发明内容
语用机器翻译方法集成了统计机器翻译的最前沿技术和语用学翻译理念,从词语、句法、语法和篇章层面上进行深层语言学分析和结构逻辑处理,可以有效解决机器翻译中目标语结果的顺序混乱问题。语用的方法按照语言的线性结构来切分语言结构,遵循语用学的只要是现实当中使用的语言就是正确的这个原则来行事。
本发明的具体翻译方法如下:
1、信息接收窗口接收源语言信息。将源语言信息导入源语言预处理模块。
2、源语言预处理模块对源语言进行格式预处理,使之符合规范的源语言格式。将处理后的标准格式源语言导入翻译引导模块。
3、  翻译引导模块将源语言初步切分成句子。先引入标点符号库和语言特殊标记库,以符合自然语用规则的句号、问号、感叹号、分号、空行等作为切分依据。将源语言初步切分成为单句,顺序导入翻译主模块。
4、  翻译主模块对句子进行翻译处理。
(1) 首先,主模块调入各种子模块,如语言切分程序包、词性标记程序包、基本语料库、基本词典库、固定词语库、语用知识库、短语表等语言库。然后导入字符串标记处理模块。
(2) 字符串标记处理模块对字符串进行初步分析,确定原句的时间、地点、人物等事件信息,并标注。将标注信息传递给句子切分模块。
(3) 句子切分模块根据句子的关联信息对单句进行再切分。切分方法有两个核心点。一个是按照原文的线性排列进行切分,完全不同于目前流行的乔姆斯基的NP/VP语言结构树划分的方式;再就是通过设置多个语言子库,与原文进行交叉定位并提取关联信息,以此为依据对原文进行切分。切分的依据是动态变化的,可以适应千变万化的语言结构。一个句子中的切分依据在另一个句子中可能就不是切分依据。最后将句子切分成几个子句。然后导入排序模块。
(4) 排序模块对子句进行重新排序。根据切分依据的不同对子句进行重排序。将排序结果导入到翻译对齐模块。
(5) 翻译对齐模块将重排序结果进行目标语对齐。根据子句的不同类型从基本语料库、基本词典库、固定词语库、语用知识库、短语表等语言库调用不同的对齐词语。然后导入目标语规范模块。
5、  目标语规范模块预先调入目标语使用规则库,根据目标语的表达规范将对齐的结果进行规范化处理,最后得到符合目标语言表达习惯的翻译结果。然后导入结果输出窗口。
6、  结果输出窗口将结果输出到应用终端。
上述所说语用和语用翻译的概念指的是:语用研究所侧重的对语言表达的所处环境及产生话语的原因和结果的分析,语用学的各个领域包括如指示语、预设、语言礼貌、会话含意、关联理论、话语连贯、言语行为理论、会话分析、认知语用、顺应论等。语用翻译侧重于通过语用的方法分析源语言并对源语言进行精确理解,进而将源语言所要表达的意义完整准确地转换成符合目的语的表达习惯的规范的目的语。
上述(4)中的排序模块通过分析源语言句子的每个细小单元之间的关联关系将句子重新组合成目标语言的关联关系,并且这种关联关系是可以计算的。关联关系根据源语言细小单元之间的时间、空间、人物、事件以及相互之间的逻辑关系进行判断,每个细小单元的重新组合根据目标语的时间、空间、人物、事件以及相互之间的逻辑关系进行排序。
上述5中的目标语规范模块是将上述(4)中重新组合后的源语言单元经过上述(5)的翻译处理后,再进行目标语的二次处理,二次处理主要解决语言的平顺度问题,通过增减非实质意义词汇的方法来达到目标语的表达规范。
本发明的翻译系统包括信息接收窗口、源语言预处理模块、翻译引导模块、翻译主模块、各种子模块(如语言切分程序包、词性标记程序包、基本语料库、基本词典库、固定词语库、语用知识库、短语表等语言库)、字符串标记处理模块、句子切分模块、排序模块、翻译对齐模块、目标语规范模块、结果输出窗口等模块。
本发明全部为自动程序处理,不需经过人为再加工。经过本翻译方法处理的翻译输出结果符合目标语使用规范,逻辑结构清晰,具有较好的可读性,对非格式化语言的复杂结构句子的全自动翻译效果已经明显超过目前最好的其他的自动翻译系统。
附图说明
附图为本发明语用机器翻译方法流程图。 
具体实施方式
下面结合附图,详细说明本发明的具体翻译方法:
本发明可以应用于各种客户端,在客户端(如移动终端APP自动翻译、电脑终端自动翻译、新闻和资料的自动翻译处理系统、国际电子商务自动语言转换、旅游服务、教学科研、智能机器人、语音翻译系统等)界面输入源语言。
信息接收窗口接收源语言信息。将源语言信息导入源语言预处理模块。
如图所示,源语言预处理模块对源语言进行格式预处理,使之符合规范的源语言格式。对全角和半角符号、非源语言格式的标点符号、各种非标准代码、非源语言语言、非源语言的其他格式等进行处理。将处理后的标准格式源语言导入翻译引导模块。
翻译引导模块将源语言初步切分成句子。先引入标点符号库和语言特殊标记库,以符合自然语用规则的句号、问号、感叹号、分号、空行等作为切分依据。将源语言初步切分成为单句,顺序导入翻译主模块。
翻译主模块对句子进行翻译处理。首先,主模块调入各种子模块,如语言切分程序包、词性标记程序包、基本语料库、基本词典库、固定词语库、语用知识库、短语表等语言库。然后导入字符串标记处理模块。
字符串标记处理模块对字符串进行初步分析,确定原句的时间、地点、人物等事件信息,并标注。将标注信息传递给句子切分模块。
句子切分模块根据句子的关联信息对单句进行再切分。切分方法有两个核心点。一个是根据原文的线性排列进行切分,完全不同于目前流行的乔姆斯基的NP/VP语言结构树划分的方式;再就是通过设置多个语言子库,与原文进行交叉定位并提取关联信息,以此为依据对原文进行切分。
切分的依据是动态变化的,可以适应千变万化的语言结构。一个句子中的切分依据在另一个句子中可能就不是切分依据。最后将句子切分成几个子句。然后导入排序模块。
例如下面的英文句子可以切分成6个子句。
 切分前原句:
It expects to lose between $8m and $10m of normalized earnings before interest and tax in its NZ dairy unit after farmgate milk prices jumped since the start of the financial year, and doubts it will be able to claw it back later, it said in a statement.
(http://www.theaustralian.com.au/business/latest/milk-prices-hit-goodman-fielder-earnings/story-e6frg90f-1226765964357)
切分后:
It expects to lose between $8m and $10m of normalized earnings // before interest and tax in its NZ dairy unit // after farmgate milk prices jumped // since the start of the financial year // and doubts it will be able to claw it back later // it said in a statement. 
排序模块对子句进行重新排序。根据切分依据的不同对子句进行重排序。将排序结果导入到翻译对齐模块。上例子句排序后的结果是:
it said in a statement // before interest and tax in its NZ dairy unit // after farmgate milk prices jumped // It expects to lose between $8m and $10m of normalised earnings // since the start of the financial year // and doubts it will be able to claw it back later. 
翻译对齐模块将重新排序结果进行目标语对齐。根据子句的不同类型从基本语料库、基本词典库、固定词语库、语用知识库、短语表等语言库调用不同的对齐词语。然后导入目标语规范模块。
目标语规范模块调用目标语使用规则库,根据目标语的表达规范将对齐的结果进行规范化处理,处理过程涉及助词、介词、连词、副词等的增加和删减以及词语的位置调整。 如上例中目标语“的”、“将”、“在”的增减等。最后得到符合目标语言表达习惯的翻译结果。然后导入结果输出窗口。上例的翻译结果是:
在一份声明中说,在新西兰乳品单位利息和税前,在农场的牛奶价格上涨之后,它预计将失去800万美元和1000万美元之间的正常收益,自从本财政年度起,以后怀疑它将能够追回来
最后,结果输出窗口将翻译结果输出到应用终端。
本发明语用机器翻译方法并不限于上述所阐述的基本方法和实施方式,在没有背离本发明的实质内容的情况下,本领域技术人员可以想到的任何变形、改进、替换均属于本发明的范围。

Claims (8)

1.语用机器翻译方法如下:
(1)信息接收窗口接收源语言信息;将源语言信息导入源语言预处理模块;
(2)源语言预处理模块对源语言进行格式预处理,使之符合规范的源语言格式;将处理后的标准格式源语言导入翻译引导模块;
(3)翻译引导模块将源语言初步切分成句子;先引入标点符号库和语言特殊标记库,以符合自然语用规则的句号、问号、感叹号、分号、空行等作为切分依据;将源语言初步切分成为单句,顺序导入翻译主模块;
(4)翻译主模块对句子进行翻译处理;主模块调入各种子模块,然后导入字符串标记处理模块;
(5)字符串标记处理模块对字符串进行初步分析,确定原句的时间、地点、人物等事件信息,并标注;将标注信息传递给句子切分模块;
(6)句子切分模块根据句子的关联信息对单句进行再切分;根据切分方法的两个核心点,将句子切分成几个子句;然后导入排序模块;
(7)排序模块对子句进行重新排序;根据切分依据的不同对子句进行重排序;将排序结果导入到翻译对齐模块;
(8)翻译对齐模块将重排序结果进行目标语对齐;根据子句的不同类型从语言库调用不同的对齐词语;然后导入目标语规范处理模块;
(9)目标语规范处理模块预先调入目标语使用规则库,根据目标语的表达规范将对齐的结果进行规范化处理,得到符合目标语言表达习惯的翻译结果;然后导入结果输出窗口;
(10)结果输出窗口将结果输出到应用终端。
2.权利要求1中语用的概念范围指的是:语用学的各个领域包括如语境、指示语、预设、语言礼貌、会话含意、关联理论、话语连贯、言语行为理论、会话分析、认知语用、顺应论等。
3.按照权利要求1的翻译方法,步骤(4)所述各种子模块包括:语言切分程序包、词性标记程序包、基本语料库、基本词典库、固定词语库、语用知识库、短语表等语言库。
4.按照权利要求1的翻译方法,步骤(4)所述两个核心点指的是:一是按照原文的线性排列进行切分,完全不同于目前流行的乔姆斯基的NP/VP语言树结构划分的方式;二就是通过设置多个语言子库,与原文进行交叉定位并提取关联信息,以此为依据对原文进行切分;切分的依据是动态变化的,可以适应千变万化的语言结构;一个句子中的切分依据在另一个句子中可能就不是切分依据。
5.按照权利要求1的翻译方法,步骤(7)所述重排序是:通过分析源语言句子的每个细小单元之间的关联关系将句子重新组合成目标语言的关联关系,并且这种关联关系是可以计算的;关联关系根据源语言细小单元之间的时间、空间、人物、事件以及相互之间的逻辑关系进行判断,每个细小单元的重新组合根据目标语的时间、空间、人物、事件以及相互之间的逻辑关系进行排序。
6.按照权利要求1的翻译方法,步骤(8)所述语言库包括:基本语料库、基本词典库、固定词语库、语用知识库、短语表等。
7.按照权利要求1的翻译方法,步骤(9)所述目标语规范处理是指:进行目标语的二次处理,二次处理主要解决语言的平顺度问题,通过增减非实质意义词汇如助词、介词、连词、副词等的方法来实现目标语的规范化。
8.语用翻译方法包括信息接收窗口、源语言预处理模块、翻译引导模块、翻译主模块、各种子模块、字符串标记处理模块、句子切分模块、排序模块、翻译对齐模块、目标语规范模块、结果输出窗口等模块。
CN201310624188.2A 2013-11-30 2013-11-30 语用机器翻译方法 Pending CN104679735A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310624188.2A CN104679735A (zh) 2013-11-30 2013-11-30 语用机器翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310624188.2A CN104679735A (zh) 2013-11-30 2013-11-30 语用机器翻译方法

Publications (1)

Publication Number Publication Date
CN104679735A true CN104679735A (zh) 2015-06-03

Family

ID=53314799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310624188.2A Pending CN104679735A (zh) 2013-11-30 2013-11-30 语用机器翻译方法

Country Status (1)

Country Link
CN (1) CN104679735A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016206582A1 (zh) * 2015-06-22 2016-12-29 张云鹏 计算机辅助翻译方法及程序
CN107015971A (zh) * 2017-03-30 2017-08-04 唐亮 多语言智能预处理实时统计机器翻译系统的后处理模块
CN108763228A (zh) * 2018-05-21 2018-11-06 王伟宙 一种自然语言辅助处理系统
CN110211570A (zh) * 2019-05-20 2019-09-06 北京百度网讯科技有限公司 同声传译处理方法、装置及设备
CN112001167A (zh) * 2020-08-26 2020-11-27 四川云从天府人工智能科技有限公司 一种标点符号添加方法、系统、设备和介质
CN112069791A (zh) * 2019-05-22 2020-12-11 谷松 以语用为核心的自然语言文本辅助知识库书写和检测系统与方法
CN114139560A (zh) * 2021-12-03 2022-03-04 山东诗语翻译有限公司 基于人工智能翻译系统
CN116701410A (zh) * 2023-08-07 2023-09-05 北京大学 数据语用内存状态数据的存储方法、系统及数联网系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1100825A (zh) * 1993-09-25 1995-03-29 C&T科技发展有限公司 一种智能机译系统
CN1652106A (zh) * 2004-02-04 2005-08-10 北京赛迪翻译技术有限公司 基于语言知识库的机器翻译方法与装置
CN101996166A (zh) * 2009-08-14 2011-03-30 张龙哺 双语句对模式化记录方法以及翻译方法和翻译系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1100825A (zh) * 1993-09-25 1995-03-29 C&T科技发展有限公司 一种智能机译系统
CN1652106A (zh) * 2004-02-04 2005-08-10 北京赛迪翻译技术有限公司 基于语言知识库的机器翻译方法与装置
CN101996166A (zh) * 2009-08-14 2011-03-30 张龙哺 双语句对模式化记录方法以及翻译方法和翻译系统

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016206582A1 (zh) * 2015-06-22 2016-12-29 张云鹏 计算机辅助翻译方法及程序
CN107015971A (zh) * 2017-03-30 2017-08-04 唐亮 多语言智能预处理实时统计机器翻译系统的后处理模块
CN108763228A (zh) * 2018-05-21 2018-11-06 王伟宙 一种自然语言辅助处理系统
CN110211570A (zh) * 2019-05-20 2019-09-06 北京百度网讯科技有限公司 同声传译处理方法、装置及设备
CN110211570B (zh) * 2019-05-20 2021-06-25 北京百度网讯科技有限公司 同声传译处理方法、装置及设备
CN112069791A (zh) * 2019-05-22 2020-12-11 谷松 以语用为核心的自然语言文本辅助知识库书写和检测系统与方法
CN112069791B (zh) * 2019-05-22 2024-04-26 谷松 以语用为核心的自然语言文本辅助知识库书写和检测系统与方法
CN112001167A (zh) * 2020-08-26 2020-11-27 四川云从天府人工智能科技有限公司 一种标点符号添加方法、系统、设备和介质
CN114139560A (zh) * 2021-12-03 2022-03-04 山东诗语翻译有限公司 基于人工智能翻译系统
CN116701410A (zh) * 2023-08-07 2023-09-05 北京大学 数据语用内存状态数据的存储方法、系统及数联网系统
CN116701410B (zh) * 2023-08-07 2023-11-14 北京大学 数联网数据语用内存状态数据的存储方法及系统

Similar Documents

Publication Publication Date Title
CN104679735A (zh) 语用机器翻译方法
TWI636452B (zh) 語音識別方法及系統
US10061768B2 (en) Method and apparatus for improving a bilingual corpus, machine translation method and apparatus
CN107066455B (zh) 一种多语言智能预处理实时统计机器翻译系统
CN103971686B (zh) 自动语音识别方法和系统
US20110314003A1 (en) Template concatenation for capturing multiple concepts in a voice query
CN110765759B (zh) 意图识别方法及装置
US8874433B2 (en) Syntax-based augmentation of statistical machine translation phrase tables
CN105005557A (zh) 一种基于依存分析的中文兼类词处理方法
US11907665B2 (en) Method and system for processing user inputs using natural language processing
CN111613214A (zh) 一种用于提升语音识别能力的语言模型纠错方法
CN104750820A (zh) 一种语料库的过滤方法及装置
US20140214406A1 (en) Method and system of adding punctuation and establishing language model
WO2017012327A1 (zh) 句法分析的方法和装置
CN111079384B (zh) 一种用于智能质检服务禁语的识别方法及系统
CN109657244B (zh) 一种英文长句自动切分方法及系统
CN117194612A (zh) 大模型训练方法、装置、计算机设备集存储介质
Marasek TED Polish-to-English translation system for the IWSLT 2012
CN111046663A (zh) 一种中文表单的智能校正方法
CN114861628A (zh) 训练机器翻译模型的系统、方法、电子设备及存储介质
CN114020918A (zh) 分类模型训练方法、翻译方法、装置及电子设备
Collier A system for automating concordance line selection
CN111492364A (zh) 数据标注方法、装置及存储介质
CN109960720B (zh) 针对半结构化文本的信息抽取方法
CN110795928B (zh) 一种基于神经网络的语言句子切分方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150603

WD01 Invention patent application deemed withdrawn after publication