CN112507737A - 一种基于标签的文本翻译系统 - Google Patents
一种基于标签的文本翻译系统 Download PDFInfo
- Publication number
- CN112507737A CN112507737A CN202011526426.2A CN202011526426A CN112507737A CN 112507737 A CN112507737 A CN 112507737A CN 202011526426 A CN202011526426 A CN 202011526426A CN 112507737 A CN112507737 A CN 112507737A
- Authority
- CN
- China
- Prior art keywords
- translation
- text
- module
- tag
- symbol
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于标签的文本翻译系统,其中,包括:标记模块用于对不同格式文本添加起始符与结束符,通过起始符与结束符来识别需要翻译的位置;转义模块将原文本中首行空格和符号标记,使翻译模块不会将这些字符作为格式处理掉;翻译模块识别文本中需要翻译的区域,编写翻译程序,或调用网络接口,对标记内需要翻译的内容进行翻译;词库记录专有名词,用以记录专有名词和替换字符串之间一一对应的关系。本发明提出一种自动化翻译的系统,在原始文档中添加标签,程序将通过标签定位自动识别需要翻译的区域,实现在特定格式下,翻译出正确的文本内容,提高文本翻译的速度。
Description
技术领域
本发明涉及文本翻译技术,特别涉及一种基于标签的文本翻译系统。
背景技术
文本批量翻译技术是将文本存储的语言通过计算机翻译成另一种语言的技术。随着翻译技术日益成熟,互联网翻译成本越来越低,在互联网,金融,政府,电信等行业的日常工作中对文本进行的需求也越来越大。对自动化翻译的文献及发明相对较少。目前,使用较多的翻译方式有两种,一是在线翻译网站,例如百度翻译,网易有道翻译,谷歌翻译。使用时将需要翻译的文本直接复制到工具网站内,即可翻译。二是使用软件翻译,这类软件可以是专门的翻译软件,也可以是以插件或功能模块的形式。以Office Word 2016为例,打开需要翻译的文这个档,选择“审阅”面板,在“语言”选项卡下,点击【翻译】按钮,可选择翻译模式,“翻译这个文档”,“翻译所选文字”,“翻译屏幕提示”。可按需要对不通部分进行翻译。
使用网页翻译需要手动选择翻译区域,对于内容较多,格式复杂的文本则需要耗费大量时间,以及人力成本。使用软件及插件对文本内容进行翻译,虽然不需要手动进行复制粘贴,但插件无法识别带有格式的文本信息,以及无法识别特有名称,例如TS文件内有不同标签,而标签内容是不需要进行翻译的。翻译软件无法区分标签及翻译内容。
发明内容
本发明的目的在于提供一种基于标签的文本翻译系统,用于解决上述现有技术的问题。
本发明一种基于标签的文本翻译系统,其中,包括:标记模块,转义处理模块,翻译模块以及词库;标记模块用于对不同格式文本添加起始符与结束符,通过起始符与结束符来识别需要翻译的位置;转义模块将原文本中首行空格和符号标记,使翻译模块不会将这些字符作为格式处理掉;翻译模块识别文本中需要翻译的区域,编写翻译程序,或调用网络接口,对标记内需要翻译的内容进行翻译;词库记录专有名词,用以记录专有名词和替换字符串之间一一对应的关系,翻译包括:接收待翻译文件;转义处理模块,对字符进行转义;标记模块,对文本插入标记;翻译模块,替换文本中不需要翻译的关键词;翻译模块,对处理后的文档进行翻译;翻译模块,将关键词由替换字符还原为原字符串写入缓存中;标记模块,将翻译起始符与结束符去除,并将文件写入缓存;转义处理模块,将被转义的字符还原为原字符。
根据所述的基于标签的文本翻译系统的一实施例,其中,标记模块中,定义$b$符号为翻译起始符号,$e$符号为翻译结束符号。
根据所述的基于标签的文本翻译系统的一实施例,其中,标记模块中不同的文件类型均对应一套逻辑判断,在标记不同类型的文本时,使用不同的逻辑对文本添加标记,通过逻辑判断,将起始符号和结束符号插入文本中。
根据所述的基于标签的文本翻译系统的一实施例,其中,对标记内需要翻译的内容进行翻译,包括百度翻译API、谷歌翻译API以及网易有道翻译API开放接口。
根据所述的基于标签的文本翻译系统的一实施例,其中,翻译模块使用不同的字符对文本中专有名词进行替换,通过替换后的字符识别不需要翻译的词,并调用词库进行专有名词比对。
根据所述的基于标签的文本翻译系统的一实施例,其中,翻译模块定义一种类型的标签,将标签写入带有格式的文本中,通过逻辑判断与循环语句,识别出添加标签的区域,通过调用接口或编写的翻译程序对标签内的文本进行翻译。
根据所述的基于标签的文本翻译系统的一实施例,其中,翻译模块对于每种格式设定单独的逻辑以添加启始符和结束符。
根据所述的基于标签的文本翻译系统的一实施例,其中,通过主程序控制标记模块,转义处理模块,翻译模块以及词库。
根据所述的基于标签的文本翻译系统的一实施例,其中,在主程序中改变文件类型,在标记模块中修改对应逻辑文件路径,在添加标记时使用与翻译类型匹配的逻辑文件,逻辑文件用于给不同类型格式的文本添加标记;逻辑文件中,通过判断语句与条件循环对需翻译的区域添加标签。
本发明提出一种自动化翻译的系统,通过向目标翻译文本内添加标签让软件可以自动识别需要翻译的文本区域。在原始文档中添加标签,程序将通过标签定位自动识别需要翻译的区域,实现在特定格式下,翻译出正确的文本内容。提高文本翻译的速度。
附图说明
图1为程序结构图;
图2为关键词库;
图3为翻译流程图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明软件分为三个模块,标记模块,转义处理模块,翻译模块以及一个专有名词库。这三个模块通过主程序进行调用。如图1所示,
标记模块用于对不同格式文本添加起始符与结束符,从而程序通过起始符与结束符来识别哪些位置需要翻译。在标记模块中,定义$b$符号为翻译起始符号,$e$符号为翻译结束符号。每一种类型的文本由于其格式不同,无法使用统一的逻辑程序添加标记,因此模块中不同的文件类型均对应一套逻辑判断(一个文件),在标记不同类型的文本时,使用不同的逻辑对文本添加标记,通过逻辑判断,将起始符号和结束符号插入文本中。
转义模块将原文本中首行空格,$符号等需要字符加上标记,具体内容根据不同格式文本而定。使翻译模块不会将这些字符当做格式处理掉。
翻译模块识别文本中需要翻译的区域,自行编写翻译程序,也可调用网络接口,对标记内(需要翻译的部分)的内容进行翻译,包括百度翻译API,谷歌翻译API,网易有道翻译API等开放接口。并且使用一系列不同的字符对文本中名称,地点,姓名等专有名词进行替换,程序通过替换后的字符识别哪些词不需要翻译。例如In the photo,he has a pieceof paper in his hand.It reads"I love you".Tom was moved When he saw thisphoto.I love you不应被翻译,因此这里将“I love you”字符转换为“AA%1AA”,“Tom”将替换为“AA%2AA”。程序中将建立专有名词库记录专有名词,词库需手动录入,用以记录专有名词和替换字符串之间一一对应的关系,如下图2所示,程序启动时调用词库进行比对。
如图3所示,翻译流程包括:
主程序接收待翻译文件,将文件路径写入程序中。
判断要翻译的文本类型,选取相对应的插入标记逻辑。
调用转义处理模块,对字符进行转义
调用标记模块,对文本插入标记(启始符$b$与结束符$e$)。
调用翻译模块,替换文本中不需要翻译的关键词(专有名词)。
调用翻译模块,对处理后的文档进行翻译。翻译可调取网络接口,也可以自己编写程序实现翻译。
调用翻译模块,将关键词由替换字符还原为原字符串写入缓存中。
调用标记模块,将翻译起始符($b$)与结束符($e$)去除,并将文件写入缓存。
调用转义处理模块,将被转义的字符还原为原字符。
将最终结果输出至文件。
本发明关键点在于首先定义一种类型的标签(本发明使用“$b$”作为起始标签,使用“$e$”作为结束标签),其次将标签写入带有格式的文本中,通过逻辑判断与循环语句,识别出添加标签的区域,通过调用接口或编写的翻译程序对标签内的文本进行翻译。
不同类型的文件,标签格式及位置有所不同,在编写逻辑文件时,需要了解不同类型文件的格式,每种格式均需要编写单独的逻辑以添加启始符和结束符。
翻译不同类型的文件,在主文件中改变文件类型,在标记模块中修改对应逻辑文件路径。让程序在添加标记时使用与翻译类型匹配的逻辑文件。逻辑文件主要用于给不同类型格式的文本添加标记。逻辑文件中,通过判断语句与条件循环对需翻译的区域添加标签。翻译模块为添加好标签的文件进行翻译。
与现有技术相比,本发明提出了一种文本标签形式,并将提供了一种从标签添,字符转义,关键字替换,到翻译文本的流程。可对XML,TS,TXT等文本格式进行添加标签并通过程序对翻译位置进行识别。与传统人工翻译相比,大大提高了翻译速度。并且格式文本内容量越大,翻译效率越高。本发明可通过不同语言实现,可翻译的文本类型多样,实现自动批量翻译的要求。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (9)
1.一种基于标签的文本翻译系统,其特征在于,包括:标记模块,转义处理模块,翻译模块以及词库;
标记模块用于对不同格式文本添加起始符与结束符,通过起始符与结束符来识别需要翻译的位置;
转义模块将原文本中首行空格和符号标记,使翻译模块不会将这些字符作为格式处理掉;
翻译模块识别文本中需要翻译的区域,编写翻译程序,或调用网络接口,对标记内需要翻译的内容进行翻译;
词库记录专有名词,用以记录专有名词和替换字符串之间一一对应的关系,
翻译包括:
接收待翻译文件;
转义处理模块,对字符进行转义;
标记模块,对文本插入标记;
翻译模块,替换文本中不需要翻译的关键词;
翻译模块,对处理后的文档进行翻译;
翻译模块,将关键词由替换字符还原为原字符串写入缓存中;
标记模块,将翻译起始符与结束符去除,并将文件写入缓存;
转义处理模块,将被转义的字符还原为原字符。
2.如权利要求1所述的基于标签的文本翻译系统,其特征在于,标记模块中,定义$b$符号为翻译起始符号,$e$符号为翻译结束符号。
3.如权利要求1所述的基于标签的文本翻译系统,其特征在于,标记模块中不同的文件类型均对应一套逻辑判断,在标记不同类型的文本时,使用不同的逻辑对文本添加标记,通过逻辑判断,将起始符号和结束符号插入文本中。
4.如权利要求1所述的基于标签的文本翻译系统,其特征在于,对标记内需要翻译的内容进行翻译,包括百度翻译API、谷歌翻译API以及网易有道翻译API开放接口。
5.如权利要求1所述的基于标签的文本翻译系统,其特征在于,翻译模块使用不同的字符对文本中专有名词进行替换,通过替换后的字符识别不需要翻译的词,并调用词库进行专有名词比对。
6.如权利要求1所述的基于标签的文本翻译系统,其特征在于,翻译模块定义一种类型的标签,将标签写入带有格式的文本中,通过逻辑判断与循环语句,识别出添加标签的区域,通过调用接口或编写的翻译程序对标签内的文本进行翻译。
7.如权利要求1所述的基于标签的文本翻译系统,其特征在于,翻译模块对于每种格式设定单独的逻辑以添加启始符和结束符。
8.如权利要求1所述的基于标签的文本翻译系统,其特征在于,通过主程序控制标记模块,转义处理模块,翻译模块以及词库。
9.如权利要求8所述的基于标签的文本翻译系统,其特征在于,在主程序中改变文件类型,在标记模块中修改对应逻辑文件路径,在添加标记时使用与翻译类型匹配的逻辑文件,逻辑文件用于给不同类型格式的文本添加标记;逻辑文件中,通过判断语句与条件循环对需翻译的区域添加标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011526426.2A CN112507737A (zh) | 2020-12-22 | 2020-12-22 | 一种基于标签的文本翻译系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011526426.2A CN112507737A (zh) | 2020-12-22 | 2020-12-22 | 一种基于标签的文本翻译系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112507737A true CN112507737A (zh) | 2021-03-16 |
Family
ID=74923033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011526426.2A Pending CN112507737A (zh) | 2020-12-22 | 2020-12-22 | 一种基于标签的文本翻译系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112507737A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113760246A (zh) * | 2021-09-06 | 2021-12-07 | 网易(杭州)网络有限公司 | 应用程序文本语言处理方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100324887A1 (en) * | 2009-06-17 | 2010-12-23 | Dong Mingchui | System and method of online user-cycled web page vision instant machine translation |
CN110889296A (zh) * | 2019-11-27 | 2020-03-17 | 福建亿榕信息技术有限公司 | 一种结合爬虫技术的实时翻译方法和装置 |
CN111178088A (zh) * | 2019-12-20 | 2020-05-19 | 沈阳雅译网络技术有限公司 | 一种面向xml文档的可配置神经机器翻译方法 |
-
2020
- 2020-12-22 CN CN202011526426.2A patent/CN112507737A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100324887A1 (en) * | 2009-06-17 | 2010-12-23 | Dong Mingchui | System and method of online user-cycled web page vision instant machine translation |
CN110889296A (zh) * | 2019-11-27 | 2020-03-17 | 福建亿榕信息技术有限公司 | 一种结合爬虫技术的实时翻译方法和装置 |
CN111178088A (zh) * | 2019-12-20 | 2020-05-19 | 沈阳雅译网络技术有限公司 | 一种面向xml文档的可配置神经机器翻译方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113760246A (zh) * | 2021-09-06 | 2021-12-07 | 网易(杭州)网络有限公司 | 应用程序文本语言处理方法、装置、电子设备及存储介质 |
CN113760246B (zh) * | 2021-09-06 | 2023-08-11 | 网易(杭州)网络有限公司 | 应用程序文本语言处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Atkins et al. | Corpus design criteria | |
US10248650B2 (en) | In-context exact (ICE) matching | |
Weisser | Practical corpus linguistics: An introduction to corpus-based language analysis | |
US8031943B2 (en) | Automatic natural language translation of embedded text regions in images during information transfer | |
Dagan et al. | Termight: Identifying and translating technical terminology | |
US7778816B2 (en) | Method and system for applying input mode bias | |
RU2328034C2 (ru) | Способ и система сопоставления операций семантическим меткам в электронных документах | |
US6782384B2 (en) | Method of and system for splitting and/or merging content to facilitate content processing | |
EP2570974B1 (en) | Automatic crowd sourcing for machine learning in information extraction | |
CN100416591C (zh) | 字符识别电子设备和字符识别方法 | |
US20100100815A1 (en) | Email document parsing method and apparatus | |
US20080288239A1 (en) | Localization and internationalization of document resources | |
EP2162833A1 (en) | A method, system and computer program for intelligent text annotation | |
CN111178088B (zh) | 一种面向xml文档的可配置神经机器翻译方法 | |
O'Donnell | Programming for the World: A guide to internationalization | |
KR101962407B1 (ko) | 인공지능을 이용한 전자결재 문서 작성 지원 시스템 및 그 방법 | |
CN109344374B (zh) | 基于大数据的报表生成方法及装置、电子设备、存储介质 | |
US8041556B2 (en) | Chinese to english translation tool | |
CN112507737A (zh) | 一种基于标签的文本翻译系统 | |
Lehman et al. | The biblatex package | |
CN113448563B (zh) | 一种LaTeX在线协作平台 | |
CN111310473A (zh) | 文本纠错方法及其模型训练的方法、装置 | |
JPH11272671A (ja) | 機械翻訳装置及び機械翻訳方法 | |
Bart | Experimental markup in a TEI-conformant setting | |
CN110457659B (zh) | 条款文档生成方法及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |