CN107015971A - 多语言智能预处理实时统计机器翻译系统的后处理模块 - Google Patents
多语言智能预处理实时统计机器翻译系统的后处理模块 Download PDFInfo
- Publication number
- CN107015971A CN107015971A CN201710203875.5A CN201710203875A CN107015971A CN 107015971 A CN107015971 A CN 107015971A CN 201710203875 A CN201710203875 A CN 201710203875A CN 107015971 A CN107015971 A CN 107015971A
- Authority
- CN
- China
- Prior art keywords
- language
- module
- capital
- post
- machine translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种多语言智能预处理实时统计机器翻译系统的后处理模块,所述后处理模块包括单词标点规范化模块、大小写转换模块和格式转换模块;所述单词标点规范化模块用于将翻译结果中的单词和标点规范化为目标语言的表现形式,所述大小写转换模块用于对翻译结果中的大小写进行转换。本发明机器翻译的后处理模块能够对机器翻译的翻译结果进行单词标点规范化、大小写转换及格式转换等基本操作,使最终的输出结果格式与输入的格式一致,并且输出结果符合翻译目标语言的常用表现形式。
Description
技术领域
人工智能机器翻译技术领域,具体来说,涉及一种多语言智能预处理实时统计机器翻译系统的后处理模块。
背景技术
机器翻译是利用计算机对人类自然语言进行自动翻译的技术,是利用计算机把一种自然语言转换成另一种自然语言的过程,而且两种自然语言在意义上应该是等价的。
目前,一种比较成熟而且主流的机器翻译方法是基于统计的方法,该方法的优点在于几乎不需要人工撰写翻译规则,所有的翻译信息都是自动地从语料中学习而获得,因此该方法最大程度地发挥了计算机高速运算的特点,极大地降低了人工成本。
基于统计模型的机器翻译技术从平行语料库中学习从一种语言A到另一种语言B的短语翻译。在翻译新的句子时,把输入语言A的句子分解成若干短语,根据学习来的短语(A语言)-短语(B语言)的共现概率,把语言A的句子翻译成语言B的句子。整个学习、翻译过程完全根据统计模型。
目前基于统计模型的机器翻译技术的后处理模块功能弱小,大多数都是将机器翻译的结果直接作为最终的结果输出,因此,会造成输出结果不准确、西文作为翻译目标语言时输出格式有问题等。
发明内容
针对相关技术中的上述技术问题,本发明提出一种多语言智能预处理实时统计机器翻译系统的后处理模块,能够克服现有技术的上述不足。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种多语言智能预处理实时统计机器翻译系统的后处理模块,所述后处理模块包括单词标点规范化模块、大小写转换模块和格式转换模块;所述单词标点规范化模块用于将翻译结果中的单词和标点规范化为目标语言的表现形式,所述大小写转换模块用于对翻译结果中的大小写进行转换。
进一步的,待翻译语言为英语,翻译目标语言为中文时,单词标点规范化模块将翻译结果里中文单词间的空格去掉。
进一步的,翻译目标语言是西语时,单词标点规范化模块将翻译结果里标点符号与其前面一个单词间的空格去掉。
进一步的,翻译目标语言是西语时,大小写转换模块将翻译结果里英文句子的首字母及专有名词的字母转化为大写字母。
进一步的,所述格式转换模块用于对翻译结果格式进行转换,使输出语言的格式与输入语言的格式一致。
本发明的有益效果:本发明机器翻译的后处理模块能够对机器翻译的翻译结果进行单词标点规范化、大小写转换及格式转换等基本操作,使最终的输出结果格式与输入的格式一致,并且输出结果符合翻译目标语言的常用表现形式。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例所述的一种多语言智能预处理实时统计机器翻译系统的后处理模块的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,根据本发明实施例所述的一种多语言智能预处理实时统计机器翻译系统的后处理模块,所述后处理模块包括单词标点规范化模块、大小写转换模块和格式转换模块;所述单词标点规范化模块用于将翻译结果中的单词和标点规范化为目标语言的表现形式,所述大小写转换模块用于对翻译结果中的大小写进行转换。
在一具体实施例中,待翻译语言为英语,翻译目标语言为中文时,单词标点规范化模块将翻译结果里中文单词间的空格去掉。
在一具体实施例中,翻译目标语言是西语时,单词标点规范化模块将翻译结果里标点符号与其前面一个单词间的空格去掉。
在一具体实施例中,翻译目标语言是西语时,大小写转换模块将翻译结果里英文句子的首字母及专有名词的字母转化为大写字母,其中,所述的标点符号包括句号、逗号、问号、分号、感叹号和括号等。
在一具体实施例中,所述格式转换模块用于对翻译结果格式进行转换,使输出语言的格式与输入语言的格式一致。
为了方便理解本发明的上述技术方案,以下通过具体使用方式上对本发明的上述技术方案进行详细说明。
在具体使用时,本发明的后处理模块用于对翻译结果做进一步处理,使其更加接近目标语言的表达习惯,并作为最终结果输出,如附图中图1所示:后处理模块主要包括D.1单词标点规范化模块,D.1单词标点规范化模块把机器翻译结果中的单词和标点规范化为翻译目标语言的常用表现形式,例如,将英-中翻译的翻译结果中中文单词间的空格去掉,将西语翻译结果句号与其前面一个单词间的空格,逗号与其前面一个单词间的空格去掉等; D.2大小写转换模块主要适用于西语作为目标语言的翻译,例如英文句子的首字母要大写,一些专用名词的字母,例如USA也要大写,该D.2大小写转换模块把翻译结果中相应的小写字母转换成大写字母;D.3格式转换即保证输出与输入的格式一致,将输出结果的格式转化为输入一致的格式,例如输入的语言文本是图片格式,则格式转换模块也将输出结果转换为图片格式输出。
综上所述,本发明机器翻译的后处理模块能够对机器翻译的翻译结果进行单词标点规范化、大小写转换及格式转换等基本操作,使最终的输出结果格式与输入的格式一致,并且输出结果符合翻译目标语言的常用表现形式。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种多语言智能预处理实时统计机器翻译系统的后处理模块,其特征在于,所述后处理模块包括单词标点规范化模块、大小写转换模块和格式转换模块;所述单词标点规范化模块用于将翻译结果中的单词和标点规范化为目标语言的表现形式,所述大小写转换模块用于对翻译结果中的大小写进行转换。
2.根据权利要求1所述的一种多语言智能预处理实时统计机器翻译系统的后处理模块,其特征在于,待翻译语言为英语,翻译目标语言为中文时,单词标点规范化模块将翻译结果里中文单词间的空格去掉。
3.根据权利要求1所述的一种多语言智能预处理实时统计机器翻译系统的后处理模块,其特征在于,翻译目标语言是西语时,单词标点规范化模块将翻译结果里标点符号与其前面一个单词间的空格去掉。
4.根据权利要求1所述的一种多语言智能预处理实时统计机器翻译系统的后处理模块,其特征在于,翻译目标语言是西语时,大小写转换模块将翻译结果里英文句子的首字母及专有名词的字母转化为大写字母。
5.根据权利要求1所述的一种多语言智能预处理实时统计机器翻译系统的后处理模块,其特征在于,所述格式转换模块用于对翻译结果格式进行转换,使输出语言的格式与输入语言的格式一致。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710203875.5A CN107015971A (zh) | 2017-03-30 | 2017-03-30 | 多语言智能预处理实时统计机器翻译系统的后处理模块 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710203875.5A CN107015971A (zh) | 2017-03-30 | 2017-03-30 | 多语言智能预处理实时统计机器翻译系统的后处理模块 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107015971A true CN107015971A (zh) | 2017-08-04 |
Family
ID=59446638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710203875.5A Pending CN107015971A (zh) | 2017-03-30 | 2017-03-30 | 多语言智能预处理实时统计机器翻译系统的后处理模块 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107015971A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110414013A (zh) * | 2019-07-31 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置及电子设备 |
CN109190131B (zh) * | 2018-09-18 | 2023-04-14 | 北京工业大学 | 一种基于神经机器翻译的英语单词及其大小写联合预测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101187924A (zh) * | 2007-11-28 | 2008-05-28 | 北京金山软件有限公司 | 一种从双语句对获取词对译文的方法及系统 |
CN102508878A (zh) * | 2011-10-18 | 2012-06-20 | 深圳市共进电子股份有限公司 | 一种借助机器翻译系统生成规范外文页面的方法 |
CN104679735A (zh) * | 2013-11-30 | 2015-06-03 | 赵会军 | 语用机器翻译方法 |
-
2017
- 2017-03-30 CN CN201710203875.5A patent/CN107015971A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101187924A (zh) * | 2007-11-28 | 2008-05-28 | 北京金山软件有限公司 | 一种从双语句对获取词对译文的方法及系统 |
CN102508878A (zh) * | 2011-10-18 | 2012-06-20 | 深圳市共进电子股份有限公司 | 一种借助机器翻译系统生成规范外文页面的方法 |
CN104679735A (zh) * | 2013-11-30 | 2015-06-03 | 赵会军 | 语用机器翻译方法 |
Non-Patent Citations (1)
Title |
---|
李强: ""短语统计机器翻译关键技术研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109190131B (zh) * | 2018-09-18 | 2023-04-14 | 北京工业大学 | 一种基于神经机器翻译的英语单词及其大小写联合预测方法 |
CN110414013A (zh) * | 2019-07-31 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107066455B (zh) | 一种多语言智能预处理实时统计机器翻译系统 | |
Jiang et al. | Natural language processing and its applications in machine translation: A diachronic review | |
CN103971686B (zh) | 自动语音识别方法和系统 | |
CN100437557C (zh) | 基于语言知识库的机器翻译方法与装置 | |
Kaur et al. | Review of machine transliteration techniques | |
CN105957518A (zh) | 一种蒙古语大词汇量连续语音识别的方法 | |
EP1604307A4 (en) | PROCESSOR FOR NATURAL LANGUAGE | |
CN105005557A (zh) | 一种基于依存分析的中文兼类词处理方法 | |
CN107038160A (zh) | 多语言智能预处理实时统计机器翻译系统的预处理模块 | |
CN104679735A (zh) | 语用机器翻译方法 | |
CN105225657A (zh) | 多音字标注模板生成方法和装置 | |
CN101441626A (zh) | 一种多媒体检索系统及其检索方法 | |
CN107015971A (zh) | 多语言智能预处理实时统计机器翻译系统的后处理模块 | |
CN105895076B (zh) | 一种语音合成方法及系统 | |
CN103577398B (zh) | 一种基于谓词论元结构的层次机器翻译方法及系统 | |
Almaaytah | Translation of idiomatic expressions from Arabic into English using AI (Artificial Intelligence) | |
CN114861628A (zh) | 训练机器翻译模型的系统、方法、电子设备及存储介质 | |
Aisha et al. | A statistical method for Uyghur tokenization | |
CN103268314A (zh) | 一种获取泰文断句规则的方法及装置 | |
CN107870905B (zh) | 一种特定词汇的识别方法 | |
Klöter | Taiwan/PRC Divide and the Linguistic Consequences | |
KR102356376B1 (ko) | 문장구성요소의 5품사화를 이용한 영어 학습 서비스 제공 시스템 | |
Kchaou et al. | Bottom-up approach to translate Tunisian dialect texts in Social Networks | |
CN107025220A (zh) | 一种融合形式化语法和语言学语法的藏汉机器翻译方法 | |
Ahangar et al. | Relationship between Phonological and Geographical Distance: Persian, Sarawani Balochi and Sistani Dialect |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170804 |