CN101950286A - 软件翻译系统中的纠错模块及其纠错方法 - Google Patents
软件翻译系统中的纠错模块及其纠错方法 Download PDFInfo
- Publication number
- CN101950286A CN101950286A CN2010102810293A CN201010281029A CN101950286A CN 101950286 A CN101950286 A CN 101950286A CN 2010102810293 A CN2010102810293 A CN 2010102810293A CN 201010281029 A CN201010281029 A CN 201010281029A CN 101950286 A CN101950286 A CN 101950286A
- Authority
- CN
- China
- Prior art keywords
- translation
- original text
- time
- error correction
- format
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种软件翻译系统中的纠错模块,纠错模块用于接收从外部输入的原文和译文,按照阶梯过滤模式和识别规则对所述原文和译文进行纠错检查,提取出所述原文和译文的日期、时间、数字元素并置于记录列表中;比较模块用于提取出所述记录列表中的元素,按照比较规则逐级比较原文和译文的日期、时间、数字元素,将比较结果发送给显示模块;显示模块用于将比较结果汇总并显示。本发明还公开了一种软件翻译系统中的纠错方法。本发明能够准确识别原文和译文中的日期、时间和数字元素,并检查出译文中是否存有日期、时间、数字方面的漏译、多译和错译,及时显示给用户。
Description
技术领域
本发明涉及一种软件翻译技术,具体说,涉及一种软件翻译系统中的纠错模块及其纠错方法。
背景技术
现有技术中,当需要对译员翻译的双语稿件进行校对时,不能准确判断原文中各种格式或写法的日期、时间和数字在译文里是否得到正确翻译。
例句1:As of Sept.19 Japan time Journal reporter,the police have 29suspects to the taking of measures,including the arrest of 18 people.翻译为中文为:截至9月19日本刊记者发稿时,警方已经对29名犯罪嫌疑人采取强制措施,其中逮捕18人。
例句2:Methods To retrospectively analyze the data of 12 cases of intractable postpartum hemorrhage treated by IIAL from Sept.200 4to Apr.2009in our hospital.翻译为中文为:方法分析2004年9月至2009年4月间发生的难治性产后出血并行骼内动脉结扎的12例患者的临床资料。
例句3:His work starts at half past eight,and finished at a quarter to five.翻译为中文为:他的工作八点半开始,四点四十五结束。
例句4:She gets up at seven every day.She has breakfast at a quarter past eight,and starts work at a quarter to ten.She works until half past twelve.翻译为中文为:她每天七点起床,她八点一刻吃早饭,九点三刻开始工作,一直工作到十二点半。
从上述四个例句可以看出,日期、时间、数字往往混杂在一起,现有技术很难识别译文翻译的是否准确,是否有日期、时间、数字方面的漏译、多译、错译。
发明内容
本发明所解决的技术问题是提供一种软件翻译系统中的纠错模块,能够准确识别并检查出译文的漏译、多译和错译,及时显示给用户。
技术方案如下:
一种软件翻译系统中的纠错模块,包括:
纠错模块,用于接收从外部输入的原文和译文,按照阶梯过滤模式和识别规则对所述原文和译文进行纠错检查,提取出所述原文和译文的元素并置于记录列表中;
比较模块,用于提取出所述记录列表中的所述元素,按照比较规则逐级比较原文和译文的元素,将比较结果发送给显示模块;
显示模块,用于将比较结果汇总并显示。
优选的,所述阶梯过滤模式包括至少三级阶梯,每个阶梯分别分配有至少一条识别规则。
优选的,所述比较规则的内容包括:当本级原文和译文中的所述元素的数量和内容相同时,证明本级没有发现翻译错误;当比较发现当前级原文和译文的元素数量不等或内容不同时,则说明本级存在翻译错误。
优选的,所述识别规则包括:日期格式区、时间格式区和数字格式区;所述元素包括日期元素、时间元素和数字元素。
优选的,所述纠错模块在所述日期格式区对不同语种中的年、月和日的格式分别进行过滤识别,提取出所述日期元素;在所述时间格式区对不同语种的时、分和秒的格式分别进行过滤识别,提取出所述时间元素;在所述数字格式区对不同语种中的小数格式、分数格式和普通数字格式进行过滤识别,提取出所述数字元素。
本发明所解决的另一个技术问题是提供一种软件翻译系统中的纠错方法,能够准确识别并检查出译文的漏译、多译和错译,及时显示给用户。
技术方案如下:
一种软件翻译系统中的纠错方法,包括:
接收从外部输入的原文和译文,按照阶梯过滤模式和识别规则对所述原文和译文进行纠错检查,提取出所述原文和译文的元素并置于记录列表中;
分级提取出所述列表中的元素,按照比较规则逐级比较原文和译文的元素,并将比较结果汇总并显示。
进一步,还包括设定阶梯过滤模式、识别规则或者比较规则的步骤。
进一步,所述阶梯过滤模式包括至少三级阶梯,每个阶梯分别分配有对应的至少一条识别规则。
进一步,所述比较规则的内容包括:当本级原文和译文中的元素的数量和内容相同时,证明本级没有发现错误;当比较发现当前级原文和译文的元素数量不等或内容不同时,则说明本级存在错误。
进一步,所述识别规则包括日期格式区、时间格式区和数字格式区,所述元素包括日期元素、时间元素和数字元素;在所述日期格式区对不同语种中的年、月和日的格式分别进行过滤识别,提取出所述日期元素;在所述时间格式区对不同语种的时、分和秒的格式分别进行过滤识别,提取出所述时间元素;在所述数字格式区对不同语种中的小数格式、分数格式和普通数字格式进行过滤识别,提取出所述数字元素。
本发明技术方案的技术效果包括:
1、本发明能够准确识别原文和译文中的日期、时间和数字元素,并检查出译文中是否存有日期、时间、数字方面的漏译、多译和错译,及时显示给用户。
2、使用纠错模块可以迅速比对译员翻译的原译文稿件,找出所存在的错误,并及时提供给用户,以达到提高翻译稿件质量的目的。
附图说明
图1是本发明的纠错流程图;
图2是本发明中的阶梯过滤模式原理图。
具体实施方式
本发明利用逐级过滤的方式准确识别原文和译文中的日期、时间和数字,进而找到并指出翻译错误。
下面参考附图和优选实施例,对本发明技术方案做详细描述。
如图1所示,是本发明的纠错流程图,下面对纠错模块的具体结构和工作过程作详细描述。
步骤101:设定纠错模块。
本发明的逐级过滤方式是利用纠错模块来实现的,纠错模块中装有阶梯过滤模式和识别规则,阶梯过滤模式和识别规则需要预先设定,设定好后就可以利用纠错模块来过滤识别原文和译文中的日期、时间和数字。
纠错模块可以植入到翻译工具中,实现自动纠错。
如图2所示,是本发明中的阶梯过滤模式原理图。本优选实施例中,阶梯过滤模式分为十级阶梯过滤,相应的,为每级阶梯分别分配了1~多条识别规则。当然,阶梯的数量可以根据实际情况酌情选取,识别规则的表现形式和数量也可以自由设置。
在每级阶梯上,分别编制该级阶梯的识别规则,识别规则包括原文、译文语种识别规则。识别规则可选用正则表达式或程序函数方式。
图1示例中,阶梯过滤模式的内容是将两个语种(语种A和语种B)从第1级到第10级进行十级过滤识别,识别规则分为日期格式区、时间格式区、数字格式区,第1级~第3级属于日期格式区,第4级~第7级属于时间格式区,第8级~第10级属于数字格式区。在日期格式区对语种A和语种B中的年、月、日的格式分别进行过滤识别,提取出日期元素;在时间格式区对语种A和语种B中的时、分、秒的格式分别进行过滤识别,提取出时间元素;在数字格式区对语种A和语种B中的小数格式、分数格式和普通数字格式进行过滤识别,提取出数字元素。
以第1级~第3级的日期格式区为例,第1级阶梯关于年、月、日格式的原文、译文的识别规则如下表:
步骤102:输入原文和译文。
输入的方式是通过键盘等外部设备输入原文和译文。
输入还包括已有的原、译文稿件,和双语稿件。
步骤103:纠错模块接收从外部输入的原文和译文,按照阶梯过滤模式和识别规则逐级对原文和译文进行纠错检查。
纠错检查的过程就是识别元素和元素比较的过程。在应用本发明进行原文和译文的检查时,从第1级开始,将要检查的原文和译文句子分别从顶层沿着阶梯顺次往下走,每走一级,应用本级的识别规则进行检查,如果原文或译文中含有符合规则的元素,则提取出来置于本级所附带的列表中,并将该元素从原文或译文中删除,一直到第10级结束纠错检查。元素包括:日期元素、时间元素和数字元素,这些元素分别利用日期格式区、时间格式区、数字格式区的识别规则进行检查。
当然,每级可以共用了一个记录列表,这样就不用每级设定列表了。
步骤104:比较提取出来的元素。
比较过程是通过比较模块来实现的,比较模块提取出各级列表中的元素,并逐级比较检出的原文、译文中的元素。此处的逐级比较有两种方式,一种是在纠错检查完成后重新从第1级开始逐级比较,第二种是和纠错检查过程中同步完成,并直接将错误信息置入记录列表中。
比较规则是:当本级原文和译文中元素数量和内容相同时,证明本级没有发现错误;如果比较发现当前级原文、译文元素不等或不同时,则说明本级存在错误。在比较内容时,做统一换算以便比较,比如Sept.16th,2004换算成2004-09-16,halfpast eight换算成08:30。
步骤105:逐级比较完毕后,将比较结果汇总呈现给用户。
将比较结果汇总呈现给用户是通过显示模块来实现的,显示模块将最终的比较结果发送给显示器进行显示。
本发明中列出了对于日期、时间、数字的分级方式及分级数,但本发明不限于所列分级数量和分级方式。凡应用本发明原理进行分级、增加或减少分级方式和数量者,均落入本发明的保护范围。
Claims (10)
1.一种软件翻译系统中的纠错模块,其特征在于,包括:
纠错模块,用于接收从外部输入的原文和译文,按照阶梯过滤模式和识别规则对所述原文和译文进行纠错检查,提取出所述原文和译文的元素并置于记录列表中;
比较模块,用于提取出所述记录列表中的所述元素,按照比较规则逐级比较原文和译文的元素,将比较结果发送给显示模块;
显示模块,用于将比较结果汇总并显示。
2.如权利要求1所述的软件翻译系统中的纠错模块,其特征在于:所述阶梯过滤模式包括至少三级阶梯,每个阶梯分别分配有至少一条识别规则。
3.如权利要求1所述的软件翻译系统中的纠错模块,其特征在于,所述比较规则的内容包括:当本级原文和译文中的所述元素的数量和内容相同时,证明本级没有发现翻译错误;当比较发现当前级原文和译文的元素数量不等或内容不同时,则说明本级存在翻译错误。
4.如权利要求1所述的软件翻译系统中的纠错模块,其特征在于,所述识别规则包括:日期格式区、时间格式区和数字格式区;所述元素包括日期元素、时间元素和数字元素。
5.如权利要求4所述的软件翻译系统中的纠错模块,其特征在于,所述纠错模块在所述日期格式区对不同语种中的年、月和日的格式分别进行过滤识别,提取出所述日期元素;在所述时间格式区对不同语种的时、分和秒的格式分别进行过滤识别,提取出所述时间元素;在所述数字格式区对不同语种中的小数格式、分数格式和普通数字格式进行过滤识别,提取出所述数字元素。
6.一种软件翻译系统中的纠错方法,包括:
接收从外部输入的原文和译文,按照阶梯过滤模式和识别规则对所述原文和译文进行纠错检查,提取出所述原文和译文的元素并置于记录列表中;
分级提取出所述列表中的所述元素,按照比较规则逐级比较原文和译文的元素,并将比较结果汇总并显示。
7.如权利要求6所述的软件翻译系统中的纠错方法,其特征在于:还包括设定阶梯过滤模式、识别规则或者比较规则的步骤。
8.如权利要求6或者7所述的软件翻译系统中的纠错方法,其特征在于:所述阶梯过滤模式包括至少三级阶梯,每个阶梯分别分配有对应的至少一条识别规则。
9.如权利要求6或者7所述的软件翻译系统中的纠错方法,其特征在于,所述比较规则的内容包括:当本级原文和译文中的元素的数量和内容相同时,证明本级没有发现错误;当比较发现当前级原文和译文的元素数量不等或内容不同时,则说明本级存在错误。
10.如权利要求6或者7所述的软件翻译系统中的纠错方法,其特征在于,所述识别规则包括日期格式区、时间格式区和数字格式区,所述元素包括日期元素、时间元素和数字元素;在所述日期格式区对不同语种中的年、月和日的格式分别进行过滤识别,提取出所述日期元素;在所述时间格式区对不同语种的时、分和秒的格式分别进行过滤识别,提取出所述时间元素;在所述数字格式区对不同语种中的小数格式、分数格式和普通数字格式进行过滤识别,提取出所述数字元素。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010102810293A CN101950286A (zh) | 2010-09-14 | 2010-09-14 | 软件翻译系统中的纠错模块及其纠错方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010102810293A CN101950286A (zh) | 2010-09-14 | 2010-09-14 | 软件翻译系统中的纠错模块及其纠错方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101950286A true CN101950286A (zh) | 2011-01-19 |
Family
ID=43453789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010102810293A Pending CN101950286A (zh) | 2010-09-14 | 2010-09-14 | 软件翻译系统中的纠错模块及其纠错方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101950286A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102902808A (zh) * | 2012-10-19 | 2013-01-30 | 黄得峻 | 一种翻译文件的比对方法 |
CN104679736A (zh) * | 2015-02-02 | 2015-06-03 | 成都优译信息技术有限公司 | 一种能够统计低错的翻译系统 |
CN104778155A (zh) * | 2014-01-09 | 2015-07-15 | 阿里巴巴集团控股有限公司 | 页面文案的处理方法及装置 |
WO2016131276A1 (zh) * | 2015-07-16 | 2016-08-25 | 中兴通讯股份有限公司 | 一种文档检查方法及装置 |
CN105989439A (zh) * | 2015-02-11 | 2016-10-05 | 成都优译信息技术股份有限公司 | 多译员协同翻译系统及方法 |
CN106844355A (zh) * | 2017-01-16 | 2017-06-13 | 中译语通科技(北京)有限公司 | 一种日期时间自动翻译控制方法 |
CN107301252A (zh) * | 2017-08-10 | 2017-10-27 | 传神联合(北京)信息技术有限公司 | 原译文匹配的方法及装置 |
CN108763222A (zh) * | 2018-05-17 | 2018-11-06 | 腾讯科技(深圳)有限公司 | 一种漏译检测、翻译方法及装置、服务器及存储介质 |
CN109951354A (zh) * | 2019-03-12 | 2019-06-28 | 北京奇虎科技有限公司 | 一种终端设备识别方法、系统及存储介质 |
CN111191440A (zh) * | 2019-12-13 | 2020-05-22 | 语联网(武汉)信息技术有限公司 | 翻译中针对译文的量词纠错方法及系统 |
CN111353274A (zh) * | 2020-02-25 | 2020-06-30 | 网易(杭州)网络有限公司 | 一种翻译文本检错方法及装置 |
WO2020132851A1 (en) * | 2018-12-25 | 2020-07-02 | Microsoft Technology Licensing, Llc | Date extractor |
CN111385612A (zh) * | 2018-12-28 | 2020-07-07 | 深圳Tcl数字技术有限公司 | 基于听力障碍人群的电视播放方法、智能电视及存储介质 |
CN112560430A (zh) * | 2020-12-25 | 2021-03-26 | 北京百度网讯科技有限公司 | 文本中数值内容的纠错方法、装置及电子设备 |
-
2010
- 2010-09-14 CN CN2010102810293A patent/CN101950286A/zh active Pending
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102902808A (zh) * | 2012-10-19 | 2013-01-30 | 黄得峻 | 一种翻译文件的比对方法 |
CN104778155B (zh) * | 2014-01-09 | 2017-12-15 | 阿里巴巴集团控股有限公司 | 页面文案的处理方法及装置 |
CN104778155A (zh) * | 2014-01-09 | 2015-07-15 | 阿里巴巴集团控股有限公司 | 页面文案的处理方法及装置 |
CN104679736A (zh) * | 2015-02-02 | 2015-06-03 | 成都优译信息技术有限公司 | 一种能够统计低错的翻译系统 |
CN105989439A (zh) * | 2015-02-11 | 2016-10-05 | 成都优译信息技术股份有限公司 | 多译员协同翻译系统及方法 |
WO2016131276A1 (zh) * | 2015-07-16 | 2016-08-25 | 中兴通讯股份有限公司 | 一种文档检查方法及装置 |
CN106354731A (zh) * | 2015-07-16 | 2017-01-25 | 中兴通讯股份有限公司 | 一种文档检查方法及装置 |
CN106844355A (zh) * | 2017-01-16 | 2017-06-13 | 中译语通科技(北京)有限公司 | 一种日期时间自动翻译控制方法 |
CN107301252A (zh) * | 2017-08-10 | 2017-10-27 | 传神联合(北京)信息技术有限公司 | 原译文匹配的方法及装置 |
CN108763222A (zh) * | 2018-05-17 | 2018-11-06 | 腾讯科技(深圳)有限公司 | 一种漏译检测、翻译方法及装置、服务器及存储介质 |
CN108763222B (zh) * | 2018-05-17 | 2020-08-04 | 腾讯科技(深圳)有限公司 | 一种漏译检测、翻译方法及装置、服务器及存储介质 |
US11321529B2 (en) | 2018-12-25 | 2022-05-03 | Microsoft Technology Licensing, Llc | Date and date-range extractor |
WO2020132851A1 (en) * | 2018-12-25 | 2020-07-02 | Microsoft Technology Licensing, Llc | Date extractor |
CN111385612A (zh) * | 2018-12-28 | 2020-07-07 | 深圳Tcl数字技术有限公司 | 基于听力障碍人群的电视播放方法、智能电视及存储介质 |
CN109951354A (zh) * | 2019-03-12 | 2019-06-28 | 北京奇虎科技有限公司 | 一种终端设备识别方法、系统及存储介质 |
CN109951354B (zh) * | 2019-03-12 | 2021-08-10 | 北京奇虎科技有限公司 | 一种终端设备识别方法、系统及存储介质 |
CN111191440A (zh) * | 2019-12-13 | 2020-05-22 | 语联网(武汉)信息技术有限公司 | 翻译中针对译文的量词纠错方法及系统 |
CN111191440B (zh) * | 2019-12-13 | 2024-02-20 | 语联网(武汉)信息技术有限公司 | 翻译中针对译文的量词纠错方法及系统 |
CN111353274A (zh) * | 2020-02-25 | 2020-06-30 | 网易(杭州)网络有限公司 | 一种翻译文本检错方法及装置 |
CN111353274B (zh) * | 2020-02-25 | 2023-09-26 | 网易(杭州)网络有限公司 | 一种翻译文本检错方法及装置 |
US20210342524A1 (en) * | 2020-12-25 | 2021-11-04 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for error correction of numerical contents in text, and storage medium |
US11526657B2 (en) * | 2020-12-25 | 2022-12-13 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for error correction of numerical contents in text, and storage medium |
CN112560430A (zh) * | 2020-12-25 | 2021-03-26 | 北京百度网讯科技有限公司 | 文本中数值内容的纠错方法、装置及电子设备 |
CN112560430B (zh) * | 2020-12-25 | 2024-04-02 | 北京百度网讯科技有限公司 | 文本中数值内容的纠错方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101950286A (zh) | 软件翻译系统中的纠错模块及其纠错方法 | |
Bello et al. | Assessment of global kidney health care status | |
Vallières et al. | Measuring work engagement among community health workers in Sierra Leone: Validating the Utrecht Work Engagement Scale | |
Valenstein | Formatting pathology reports: applying four design principles to improve communication and patient safety | |
US8463794B2 (en) | Computer system, method, and computer program for extracting terms from document data including text segment | |
Lindsey | Evaluating quality control of Wikipedia's feature articles | |
CN107273420A (zh) | 一种支持多维度、可自定义的心理测评量表生成系统 | |
McCusker et al. | Elder‐Friendly Emergency Department: Development and Validation of a Quality Assessment Tool | |
KR102548362B1 (ko) | 의료법 의료광고 단어사전에 기반한 의료법 위반 광고 체크 시스템, 의료법 위반 광고 체크 방법 및 동 방법을 컴퓨터에 의해 수행하기 위해 기록 매체에 저장된 프로그램 | |
CN104423951A (zh) | 用于用户界面的方法和装置 | |
Renshaw et al. | Performance of a web-based method for generating synoptic reports | |
CN101727438B (zh) | 一种数字报刊版面信息的自动提取方法 | |
Burnett et al. | A practical guide to accreditation in laboratory medicine | |
CN108108346A (zh) | 文档的主题特征词抽取方法及装置 | |
Bonczar et al. | How to write an umbrella review? A step-by-step tutorial with tips and tricks | |
Alsagaby et al. | Cancer in Saudi Arabia (CSA): Web-Based Application to Study Cancer Data Among Saudis Using Waterfall Model | |
CN106354731A (zh) | 一种文档检查方法及装置 | |
Ollett | Moraic feet in prakrit metrics: a constraint‐based approach | |
Sanfilippo et al. | Automating frame analysis | |
CN111177340A (zh) | 家谱问卷的生成方法及装置、家谱问卷的处理方法及装置 | |
Renshaw et al. | Tabular versus synoptic reporting of prostate core needle biopsies | |
CN104618459A (zh) | 数据模型的自动采集方法及系统 | |
Allkin | Chapter Communicating safely & effectively using plant names | |
Renshaw et al. | Improving Discrete Data Capture in Synoptic Reports With Optional Free-Text Modifiers | |
Hassemer | Revision of the typification of the name Hedysarum ovalifolium (Fabaceae) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20110119 |