CN114626390A - 一种基于钢结构工程平行语料库提升翻译效率的方法 - Google Patents

一种基于钢结构工程平行语料库提升翻译效率的方法 Download PDF

Info

Publication number
CN114626390A
CN114626390A CN202011453325.7A CN202011453325A CN114626390A CN 114626390 A CN114626390 A CN 114626390A CN 202011453325 A CN202011453325 A CN 202011453325A CN 114626390 A CN114626390 A CN 114626390A
Authority
CN
China
Prior art keywords
translation
steel structure
corpus
parallel corpus
cat
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011453325.7A
Other languages
English (en)
Inventor
刘泳甫
陈桥生
陈晓亮
张启涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Baoye Steel Structure Co ltd
Original Assignee
Zhengzhou Baoye Steel Structure Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Baoye Steel Structure Co ltd filed Critical Zhengzhou Baoye Steel Structure Co ltd
Priority to CN202011453325.7A priority Critical patent/CN114626390A/zh
Publication of CN114626390A publication Critical patent/CN114626390A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于钢结构工程平行语料库提升翻译效率的方法,在使用时将所述语料库作为术语库导入计算机辅助翻译软件中,当翻译文本遇到与语料库相对应的句对或词汇表时,计算机辅助翻译软件将自动匹配。所述的翻译过程采用“自制语料库+CAT辅助”的翻译模式在保证建筑行业翻译质量的同时也提高了翻译效率。大大节省了译者以及公司技术人员的时间以及精力,尽最大程度的打破了语言上的障碍,使得公司技术人员可以将更多精力投入到海外项目的技术攻坚上面。同时随着海外项目的逐渐增多,公司译者所处理的文本越来多,钢结构平行语料的规模也会越来越大。CAT预翻译的准确率也会随着语料库的规模逐年提升。

Description

一种基于钢结构工程平行语料库提升翻译效率的方法
技术领域
本发明属于数据处理技术领域,涉及一种基于钢结构工程平行语料库提升翻译效率的方法。
背景技术
钢结构企业作为新兴的海外工程承包体,目前面临着很大的机遇和挑战。其中走向海外市场的一大挑战莫过于语言障碍。目前市面上普遍的免费翻译网站都会存在机器翻译不到位、翻译结果不尽人意等问题。然而若将文本全部交付于人工处理,庞大的翻译量又让工作进程变得十分的低效。其中翻译网站机器翻译结果不尽人意的原因有很多,如语料库规模过于庞大且生活化、许多专业词汇翻译没有录入等等。鉴于此,如何设计一套低成本的翻译方法既能拥有机器翻译的高效又能兼顾人工翻译的高质量成为了一项十分紧迫且有意义的任务。因此有必要设计一种基于钢结构工程平行语料库提升翻译效率的方法。
计算机辅助翻译(CAT)是指译员进行翻译工作时,后台不断自动储存某一领域的专业术语,从而建立相应的数据库,在未来的翻译中,软件可以直接调用这些数据库通过机器翻译与数据库相结合的翻译方法,对文本进行预翻译,可以为译员减少近60%的重复劳动。由此看来采用钢结构工程平行语料库与CAT软件结合的翻译模式,可以极大地提高翻译效率以及准确率。但是,目前国内外建筑学的平行语料库本身已极为罕见,而钢结构专业相关的平行语料库更是前所未有,现有的网络上的钢结构英文词汇过少且完全不能达到企业需求,语料普遍存在格式和内容不规范;语料来源不够权威等情况,一些语料不加标注的出现在网络上的各种文本里,造成语料纯度过低、格式混乱等问题,根本无法运用至CAT软件中。
这就需要从业人员自己通过一种较为低成本的方法自行建立一个钢结构工程平行语料库,再将其运用到CAT软件当中。因此,提供一种基于钢结构工程平行语料库提升翻译效率的方法,是一个值得研究的问题。
发明内容
为了解决上述现有技术中存在的不足,本发明提供了一种对钢结构领域内的词汇进行汇总,在建立平行语料库后与CAT软件相互配合,最后高效且高质量的对钢结构工程文本进行翻译的基于钢结构工程平行语料库提升翻译效率的方法。
本发明的目的的是这样实现的:
一种基于钢结构工程平行语料库提升翻译效率的方法,包括如下步骤:A、语料筛选;
B、语料的提取;C、配合钢结构术语库对项目文本进行预翻译;D、将平行语料库导入CAT翻译软件;E、将CAT软件接入机器翻译API;F、语料的对齐与钢结构平行语料库的生成。
所述的基于钢结构工程平行语料库提升翻译效率的方法,具体步骤为:
1).利用互联网查找钢结构工程相关资料,对前人已经翻译好的权威文本进行有针对性的查找;
2).通过网络爬虫或下载的方式将其收录在个人电脑内;
3).利用现代影像采集技术采集文本信息并依次进行校准,将语料文本先进行手动预对齐再通过对齐工具辅助对齐;
4).生成平行语料库;
5).针对不同的CAT辅助软件的要求,对语料库格式进行修整,后将平行语料库导入CAT辅助翻译软件;
6).将CAT软件接入机器翻译API;完成API的注册以及申请,设置文字识别功能;
7).配合平行语料库完成文本预翻译。
所述的步骤1)中的钢结构工程相关资料包括政府出版的双语著作、政府认证报告和历年的钢结构规范中英文对照版。
所述的步骤3)中的文本信息包括图片和构件图纸。
积极有益效果:本发明在使用时,将所述语料库作为术语库导入计算机辅助翻译软件中,当翻译文本遇到与语料库相对应的句对或词汇表时,计算机辅助翻译软件将自动匹配。所述的翻译过程采用“自制语料库+CAT辅助”的翻译模式在保证建筑行业翻译质量的同时也提高了翻译效率。大大节省了译者以及公司技术人员的时间以及精力,尽最大程度的打破了语言上的障碍,使得公司技术人员可以将更多精力投入到海外项目的技术攻坚上面。同时随着海外项目的逐渐增多,公司译者所处理的文本越来多,钢结构平行语料的规模也会越来越大。CAT预翻译的准确率也会随着语料库的规模逐年提升。
附图说明
图1为本发明所生成的TMX格式的平行语料库;
图2为市场占有率较高的某CAT翻译软件翻译效果图。
具体实施方案
下面结合附图及具体实施例,对本发明做进一步的说明:
一种基于钢结构工程平行语料库提升翻译效率的方法,包括如下步骤:A、语料筛选;
B、语料的提取;C、配合钢结构术语库对项目文本进行预翻译;D、将平行语料库导入CAT翻译软件;E、将CAT软件接入机器翻译API;F、语料的对齐与钢结构平行语料库的生成。
所述的基于钢结构工程平行语料库提升翻译效率的方法,具体步骤为:
1).利用互联网查找钢结构工程相关资料,对前人已经翻译好的权威文本进行有针对性的查找;
2).通过网络爬虫或下载的方式将其收录在个人电脑内;
3).利用现代影像采集技术采集文本信息并依次进行校准,将语料文本先进行手动预对齐再通过对齐工具辅助对齐;
4).生成平行语料库;
5).针对不同的CAT辅助软件的要求,对语料库格式进行修整,后将平行语料库导入CAT辅助翻译软件;
6).将CAT软件接入机器翻译API;完成API的注册以及申请,设置文字识别功能;
7).配合平行语料库完成文本预翻译。
所述的步骤1)中的钢结构工程相关资料包括政府出版的双语著作、政府认证报告和历年的钢结构规范中英文对照版。
所述的步骤3)中的文本信息包括图片和构件图纸。
如图1、图2所示,一种基于钢结构工程平行语料库提升翻译效率的方法,包括以下步骤:语料筛选:通过网络下载、扫描识别、手工录入和网络爬虫等方式获取原始语料,原始语料的主要来源为国家级出版社正式出版的钢结构类英汉双语规范、公司往年与技术和工艺相关的翻译文本、官方认证材料、外国钢结构工程的图纸、图片等。
语料的提取:利用现代影像技术采集多模态建筑工程类信息(图片,图表、图纸等),以GB50017-2003中英文对照版为例,将文本进行复制,后导入TXT文档中消除文本中可能存在的空格,后将文本再次复制黏贴到world中来。进入world后将所有的文本全部选中使用查找替换功能将^p^p替换为^p重复三次。完成语料的提取。
语料的对齐与钢结构平行语料库的生成:将提取好的文本分成中英文各一个文件,后将它们按照规范放入软件ABBYY ALigner内,导入完成后单击选项“align”平行语料库的大致模式成型,人为将软件对齐的语料进行修改,确认无误后以TMX文件格式导出。也可以使用市面上某在线对齐网站进行付费对齐,对齐方式与ABBYY Aligner逻辑相似。最终生成平行语料库。
将平行语料库导入CAT翻译软件:以国内较为常见的免费CAT翻译软件OmegaT以及Transmate为例,进入软件后创建所需要翻译的项目名称,创建翻译记忆库以及术语库。最后将建好的钢结构平行语料库导入至术语库内。
将CAT软件接入机器翻译API:以市面上目前某免费翻译API为例,在官网注册账号后在设置中创建应用,后打开文字识别OCR,创建OCR实例与刚刚所创建的应用进行绑定。
配合钢结构术语库对项目文本进行预翻译:回到CAT翻译软件在设置中勾选刚刚已经导入的术语库,对术语库的模糊匹配率进行调试,最后完成预翻译。
实施例
一种基于钢结构工程平行语料库提升翻译效率的方法,包括以下步骤:
1)通过百度搜索引擎,在互联网上对GB50017-2003中文版本和英文版本这两个词条分别进行搜索,最终得到两种语言的钢结构规范文本;
2)基于步骤(1)的搜索结果选择两个拥有较全信息的网站作为备用;
3)利用QQ的截屏识图功能,对两个版本的钢结构规范中的重要词汇以及短语进行分别提取,并存入.TXT文档中备用。通过这种方式我们最终得到了规范GB50017-2003中诸多关键词的官方翻译版本如:混凝土与钢材弹性模量比modular ratio of stcel toconcrete;栓钉钢材强屈比strength-yielding ratio of stud steel;弯矩bendingmoment等词汇的中英文本。
4)基于步骤(3)中的搜索结果首先进行简单的人工语料去噪,将扫描时录入的不必要的符号以及空格进行手动去除,将所有中英文的文本进行上下对齐。
5)完成以上步骤后,打开Word文档并将所有文本复制到Word文档中来,进入world后将所有的文本全部选中使用查找替换功能将^p^p替换为^p重复三次,进行最后的语料去噪并完成语料的提取。
6)将提取好的文本分成中英文各一个文件,后将它们按照规范放入软件ABBYYALigner内,导入完成后单击选项“align”平行语料库的大致模式成型,人为将软件对齐的语料进行修改,对语料对齐的准确度进行相应的调整,确认无误后以TMX文件格式导出。最终生成钢结构工程平行语料库。
7)打开CAT翻译软件Transmate,首先创建所需要翻译项目名称“NSSS英国房屋建筑钢结构规范”,创建翻译记忆库以及术语库。最后将建好的钢结构平行语料库导入至术语库内。
8)网页搜索有道智云,申请并登陆自己的账号,在官网登陆账号后在设置中创建应用,后打开文字识别OCR,创建OCR实例与刚刚所创建的应用进行绑定。
9)完成了(7)(8)步骤后回到CAT翻译软件在设置中勾选刚刚已经导入的术语库,对术语库的模糊匹配率进行调试,最后单击预翻译选项。软件会自动结合语料库和机器翻译对原文本进行翻译。当翻译文本遇到与语料库相对应的句对或词汇表时,计算机辅助翻译软件将自动匹配。最终的翻译结果,机器翻译已经完成了全部文本60%的翻译工作,后由人工对翻译内容进行调整矫正,最终完成一整套翻译任务。
本发明在使用时,将所述语料库作为术语库导入计算机辅助翻译软件中,当翻译文本遇到与语料库相对应的句对或词汇表时,计算机辅助翻译软件将自动匹配。所述的翻译过程采用“自制语料库+CAT辅助”的翻译模式在保证建筑行业翻译质量的同时也提高了翻译效率。大大节省了译者以及公司技术人员的时间以及精力,尽最大程度的打破了语言上的障碍,使得公司技术人员可以将更多精力投入到海外项目的技术攻坚上面。同时随着海外项目的逐渐增多,公司译者所处理的文本越来多,钢结构平行语料的规模也会越来越大。CAT预翻译的准确率也会随着语料库的规模逐年提升。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例.基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

Claims (4)

1.一种基于钢结构工程平行语料库提升翻译效率的方法,包括如下步骤:A、语料筛选;
B、语料的提取;C、配合钢结构术语库对项目文本进行预翻译;D、将平行语料库导入CAT翻译软件;E、将CAT软件接入机器翻译API;F、语料的对齐与钢结构平行语料库的生成。
2.根据权利要求1所述的一种基于钢结构工程平行语料库提升翻译效率的方法,其特征在于,具体步骤为:
1).利用互联网查找钢结构工程相关资料,对前人已经翻译好的权威文本进行有针对性的查找;
2).通过网络爬虫或下载的方式将其收录在个人电脑内;
3).利用现代影像采集技术采集文本信息并依次进行校准,将语料文本先进行手动预对齐再通过对齐工具辅助对齐;
4).生成平行语料库;
5).针对不同的CAT辅助软件的要求,对语料库格式进行修整,后将平行语料库导入CAT辅助翻译软件;
6).将CAT软件接入机器翻译API;完成API的注册以及申请,设置文字识别功能;
7).配合平行语料库完成文本预翻译。
3.根据权利要求2所述的一种基于钢结构工程平行语料库提升翻译效率的方法,其特征在于:所述的步骤1)中的钢结构工程相关资料包括政府出版的双语著作、政府认证报告和历年的钢结构规范中英文对照版。
4.根据权利要求1所述的一种基于钢结构工程平行语料库提升翻译效率的方法,其特征在于:所述的步骤3)中的文本信息包括图片和构件图纸。
CN202011453325.7A 2020-12-12 2020-12-12 一种基于钢结构工程平行语料库提升翻译效率的方法 Pending CN114626390A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011453325.7A CN114626390A (zh) 2020-12-12 2020-12-12 一种基于钢结构工程平行语料库提升翻译效率的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011453325.7A CN114626390A (zh) 2020-12-12 2020-12-12 一种基于钢结构工程平行语料库提升翻译效率的方法

Publications (1)

Publication Number Publication Date
CN114626390A true CN114626390A (zh) 2022-06-14

Family

ID=81896448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011453325.7A Pending CN114626390A (zh) 2020-12-12 2020-12-12 一种基于钢结构工程平行语料库提升翻译效率的方法

Country Status (1)

Country Link
CN (1) CN114626390A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377188A (zh) * 2012-04-24 2013-10-30 苏州引角信息科技有限公司 翻译库的构建方法及系统
CN110046261A (zh) * 2019-04-22 2019-07-23 山东建筑大学 一种建筑工程多模态双语平行语料库的构建方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377188A (zh) * 2012-04-24 2013-10-30 苏州引角信息科技有限公司 翻译库的构建方法及系统
CN110046261A (zh) * 2019-04-22 2019-07-23 山东建筑大学 一种建筑工程多模态双语平行语料库的构建方法

Similar Documents

Publication Publication Date Title
CN110046261B (zh) 一种建筑工程多模态双语平行语料库的构建方法
US7295963B2 (en) Adaptive machine translation
CA2469593C (en) Adaptive machine translation
WO2022088570A1 (zh) 译文后编译方法、装置、电子设备和存储介质
JP2009151777A (ja) 音声言語パラレルコーパスのアライメント方法及び装置
JP4304268B2 (ja) 複数言語対訳テキスト入力による第3言語テキスト生成アルゴリズム及び装置、プログラム
CN113159969A (zh) 一种金融长文本复核系统
CN115759037A (zh) 建筑施工方案智能审核框架及审核方法
CN111680524A (zh) 基于逆向矩阵分析的人机反馈翻译方法与系统
CN113408307B (zh) 一种基于翻译模板的神经机器翻译方法
CN117473971A (zh) 一种基于采购文本库的招标文件自动生成方法及系统
CN112836525A (zh) 一种基于人机交互机器翻译系统及其自动优化方法
CN103164398A (zh) 汉维电子辞典及其自动转译汉维语的方法
CN114626390A (zh) 一种基于钢结构工程平行语料库提升翻译效率的方法
CN116992847A (zh) 一种财报处理方法、装置、系统和介质
CN115481643A (zh) 一种互联网在线翻译工具中译稿高度还原文档样式的方法
Haulai et al. Construction of Mizo: English Parallel Corpus for Machine Translation
NZUANKE et al. Technology and translation: Areas of convergence and divergence between machine translation and computer-assisted translation
Valli Translation practice at the EU institutions: focus on a concordancing tool
Naznin et al. Parallel Corpus Creation for NMT using Web Scraping and Filtering
Gamper et al. Primary data encoding of a bilingual corpus
US20240143948A1 (en) User interface for collaborative computer-aided language translation platform
Rilfi et al. Building a Sinhala-English Parallel Corpus for Neural Machine Translation Based on Exam Questions
Dong et al. Efficient and Accurate Document Parsing and Verification Based on OCR Engine
Dong Automatic Extraction of English‐Chinese Translation Templates Based on Deep Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination