CN103793378B - 一种翻译方法和装置 - Google Patents
一种翻译方法和装置 Download PDFInfo
- Publication number
- CN103793378B CN103793378B CN201410024861.3A CN201410024861A CN103793378B CN 103793378 B CN103793378 B CN 103793378B CN 201410024861 A CN201410024861 A CN 201410024861A CN 103793378 B CN103793378 B CN 103793378B
- Authority
- CN
- China
- Prior art keywords
- word
- basic word
- basic
- data item
- translated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种翻译方法和装置,其中所述方法包括:输入数据项;移动访问指针以按基本词长度降序访问基本词词库中的基本词词组;a:在当前访问的基本词词组中查找具有独立语意且最靠近待翻译部分左侧的基本词作为匹配基本词,若查找到则执行b,否则执行c;b:将数据项中的对应内容翻译为英文并更新待翻译部分,判断数据项中是否还包含未翻译为英文的部分,若是则执行a,否则输出翻译结果;c:判断当前访问的基本词词组是否是最小长度的词组,若是则输出翻译结果,否则移动访问指针至下一基本词词组并执行a。采用本发明可提高翻译的准确度得到符合源语言语意的翻译结果,尤其适用于翻译银行等金融专业领域的金融术语、短语和短句。
Description
技术领域
本发明涉及一种翻译方法和装置。
背景技术
现有的主流翻译技术利用统计学和概率方法建立包含各种句型的双语对照语料库,在翻译时,从语料库中抽取与输入句子相类似的例句,然后模仿例句来实现源语言与目标语言的转换。采用这种技术虽然能够得到可读性和准确性较好的译文,但是必须建立庞大的语料库和有效的运行机制,并且仅是一般性的翻译,并不适用于对于翻译结果有较高要求的专业领域,例如:银行领域、机械领域、电子领域等。以银行领域为例,现有的翻译技术中并不具备一份专业的银行领域词汇,模仿例句进行翻译的结果通常是多样化的且得不到确定性的翻译结果;此外,现有技术模仿例句实现语言转换,因此无法根据源语言的词义进行准确的词语切分,也就不能准确地得到基于源语言词义的翻译结果。
发明内容
为解决上述技术问题,本发明提供了一种翻译方法和装置,尤其适用于诸如银行领域等对于翻译结果的精确度有较高要求的专业领域,能根据源语言的语意相对准确地进行语言转换。
本发明实施例提供了一种翻译方法,包括:
输入数据项;
移动访问指针以按照基本词长度从大到小的顺序访问基本词词库中的基本词词组,其中,所述基本词词库按照基本词长度分组存储有基本词及对应英文词汇,相同长度的基本词属于同一基本词词组;
操作a:在当前访问的基本词词组中查找所述数据项的待翻译部分中具有独立语意且最靠近所述待翻译部分左侧的基本词作为匹配基本词,如果查找到所述匹配基本词,则执行操作b,否则执行操作c,所述待翻译部分是所述数据项中未翻译为英文的部分;
操作b:将所述数据项中对应所述匹配基本词的内容翻译为英文并更新所述待翻译部分,然后判断所述数据项中是否还包含未翻译为英文的部分,如果包含,则执行操作a;如果不包含,则输出翻译结果;
操作c:判断当前访问的基本词词组是否是最小长度的基本词词组,如果是,则输出翻译结果;如果不是,则移动访问指针至下一基本词词组并执行操作a。
相应地,本发明实施例还提供了一种翻译装置,包括:
输入单元,用于输入数据项;
存储单元,用于存储基本词词库,所述基本词词库按照基本词长度分组存储有基本词及对应英文词汇,相同长度的基本词属于同一基本词词组;
指针单元,用于移动访问指针以按照基本词长度从大到小的顺序访问基本词词库中的基本词词组;
匹配查找单元,用于在所述指针单元当前访问的基本词词组中查找所述数据项的待翻译部分中具有独立语意且最靠近所述待翻译部分左侧的基本词作为匹配基本词,如果查找到所述匹配基本词,则触发第一处理单元,否则触发第二处理单元,其中,所述待翻译部分是所述数据项中未翻译为英文的部分;
第一处理单元,用于将所述数据项中对应所述匹配基本词的内容翻译为英文并更新所述待翻译部分,之后判断所述数据项中是否还包含未翻译为英文的部分,如果包含,则触发所述匹配查找单元;如果不包含,则触发输出单元;
第二处理单元,用于判断当前访问的基本词词组是否是最小长度的基本词词组,如果是,则触发输出单元;如果不是,则触发所述指针单元将访问指针移动至下一基本词词组,然后触发所述匹配查找单元;
输出单元,用于输出翻译结果。
实施本发明实施例所提供的翻译方法和装置,能够根据基本词词库和查找机制对中文数据项进行快速、准确地翻译,并且能得到符合中文语意且符合领域内相关人员的业务习惯的翻译结果。
附图说明
图1是根据本发明实施例的一种翻译方法的流程示意图;
图2是根据本发明实施例的一种查找匹配基本词的方法的流程示意图;
图3是根据本发明实施例的一种翻译方法的流程示意图;
图4A是根据本发明实施例的一种翻译方法的流程示意图;
图4B是根据本发明实施例的一种规范化检查的方法的流程示意图;
图5是根据本发明实施例的一种确定英文单词的缩写词的方法的流程示意图;
图6是根据本发明实施例的一种翻译装置的方块示意图;
图7是根据本发明实施例的一种翻译装置的匹配查找单元的方块示意图;
图8是根据本发明实施例的一种翻译装置的方块示意图;
图9是根据本发明实施例的一种翻译装置的方块示意图;
图10是根据本发明实施例的一种翻译装置的方块示意图。
具体实施方式
下面将结合附图对本发明实施例中的技术方案进行清楚、完整的描述。
图1是根据本发明实施例的一种翻译方法的流程示意图,参照图1,该方法包括:
100:输入数据项。数据项是指待翻译词汇,本实施例并不限制数据项的多少,例如,可以输入一整篇由数据项构成的文档,但针对每一个数据项均可采用本发明实施例所提供的方法进行翻译。
102:移动访问指针以按照基本词长度从大到小的顺序访问基本词词库中的基本词词组,其中,所述基本词词库按照基本词长度分组存储有基本词及对应英文词汇,相同长度的基本词属于同一基本词词组,访问指针指向基本词在基本词词库中的存储位置。通过分组的形式,使得查找范围缩小,翻译速度更快。
基本词词库存储有基本词及对应的英文词汇。基本词是经标准化命名之后的词汇,其具有独立完整含义且无二义性。在本发明各个实施例中以中文数据项进行说明,本领域技术人员应当理解,本发明同样适用于其他源语言。以银行领域的中文数据项为例,“基本词”是中文名称中具有独立完整含义、无二义性、业务惯用且经标准化命名之后的词汇,“基本词”又名“词根”,多个基本词可构成一个完整的中文数据项。
104:在当前访问的基本词词组中查找匹配基本词。具体的,在当前访问的基本词词组中查找所述数据项的待翻译部分中具有独立语意且最靠近所述待翻译部分左侧的基本词作为匹配基本词,如果查找到所述匹配基本词,则执行106,否则执行108,所述待翻译部分是所述数据项中未翻译为英文的部分。
其中,“具有独立语意”可以理解为“与在所述待翻译部分中的前驱词和/或后继词不构成所述基本词词库中的基本词”。
106:将所述数据项中对应所述匹配基本词的内容翻译为英文并更新所述待翻译部分,然后判断所述数据项中是否还包含未翻译为英文的部分(即:判断是否还存在所述待翻译部分),如果包含,则执行104;如果不包含,则输出翻译结果,例如:根据所述数据项的语序输出所述数据项的各个匹配基本词所对应的英文词汇。
108:判断当前访问的基本词词组是否是最小长度的基本词词组,如果是,则输出翻译结果;如果不是,则移动访问指针至下一基本词词组并执行104。
本发明实施例所提供的翻译方法,能够根据基本词词库和查找机制对中文数据项进行翻译,得到符合中文数据项语意的翻译结果,准确度较高且符合领域内相关人员的业务习惯。此外,通过分组的方式存储基本词,有利于更加快速的进行基本词的查找。
图2是根据本发明实施例的一种查找匹配基本词的方法的流程示意图,示出了在当前访问的基本词词组中查找匹配基本词的方法,参照图2,所述方法包括:
200:查找最靠近待翻译部分左侧的基本词作为最左基本词,并根据以下判断确定所述最左基本词是否具有独立语意。
由于在102中访问指针按照基本词长度访问基本词词组,所以,示例性的,对于数据项“支付方向代码”,在基本词词库中有“支付方”、“支付”、“方向”和“代码”,那么,“支付方向代码”就是最初的待翻译部分,“支付方”是所有基本词中首先查找到的最左基本词。
202:判断所述最左基本词的长度是否小于3个中文字,如果是,则具有独立语意(即:属于所述匹配基本词),否则触发204。在本实施例中基于中文数据项的特点限制阈值为3个中文字,因为一般来讲,2个中文字构成的数据项的含义相对独立且明确,当然这并不表示在本实施例中只能以3个中文字作为限制条件。
204:根据所述最左基本词及其在所述待翻译部分中的前驱词和后继词,判断所述最左基本词是否具有独立语意。当然,基于所述最左基本词在所述待翻译部分中的位置,可能所述最左基本词只有前驱词或只有后继词,此时,则只需根据所述最左基本词及其前驱词或后继词进行判断。
具体的,204可以通过以下方式实现:
将所述待翻译部分在所述最左基本词之前的一个字与所述最左基本词的开头两个字组合构成第一构成词,将所述最左基本词的结尾一个字与所述待翻译部分在所述最左基本词之后的一个字组合构成第二构成词,判断所述第一构成词和第二构成词是否均不属于基本词,如果均不属于基本词,则所述最左基本词具有独立语意;否则,不具备独立语意。例如,对于数据项“支付方向代码”,在基本词词库中有“支付方”、“支付”、“方向”和“代码”,当查找到“支付方”时,组合“方”和“向”(“向”是“支付方”的后继词)发现“方向”属于基本词,则“支付方”不属于匹配基本词。再例如,对于数据项“预授信额度”,在基本词词库中有“预授信”、“授信额度”和“额度”但没有“预”,当查找到“授信额度”时,组合“预”和(“预”是“授信额度”的前驱词)“授信”发现“预授信”属于基本词,则“授信额度”不属于匹配基本词。再例如,对于数据项“实账户金额”,基本词词库中有“实账户”、“账户金额”和“金额”但没有“实”,当查找到“账户金额”时,组合“实”和“账户”发现“实账户”属于基本词,则“账户金额”不属于匹配基本词。
当然,根据中文数据项的特点,也可以灵活限制部分所述最左基本词和部分所述待翻译部分的组合关系,而不限于上述组合字数限制。
如果在204中判断所述最左基本词不具有独立语意,则可以执行206:在当前访问的基本词词组中重新查找最左基本词,然后重复202和204的判断。
202-206可以重复进行,直至在当前访问的基本词组中确定出所述匹配基本词或直至确定不存在所述匹配基本词。
本实施例所提供的查找匹配基本词的方法,根据中文数据项固有的特点进行翻译,遵循数据项所表达的语意,避免了可能存在歧义的翻译。
图3是根据本发明实施例的一种翻译方法的流程示意图,参照图3,以源语言为中文,目标语言为英文为例,所述方法包括(在本发明提供的各种实施例的流程图中,虚线箭头的起始端的内容表示流程运行所需要的准备工作,并不属于流程顺序的一部分):
300:在输入数据项后,将数据项赋值给Word_full。
301:查找保留字清单,确定是否命中所述数据项,如果命中则输出所述数据项的对应英文全称和简称,并将规范化标志置为是;如果未命中,执行302。其中,保留字清单用于保存已经完成翻译的数据项的翻译结果(需要说明的是,在本发明中,“已经完成翻译的数据项的翻译结果”应当理解为翻译结果中不包含中文的翻译结果),例如,完成翻译的数据项的对应英文全称和/或简称。
302:将基本词词库的访问指针More指向基本词词库的起始位置,从上往下访问基本词词库。其中,基本词词库中保存有基本词及相应的英文全称和简称,词库中的基本词按照基本词长度分为多个组,并且各个组按照基本词长度降序排列,可选的,在各个组中的基本词可按照访问频率降序排列,以保证常用的基本词能够被尽快查到。
可选的,在302的一种替代实现方式中,可以根据所述数据项的长度确定More指针首先指向哪个组,例如,如果所述数据项长度为k个中文字,则More指针首先指向长度为k-1的组的起始位置。
303:判断More指针是否超过基本词词库的最大行数,如果超过,则输出所述数据项和Word_full;如果不超过,则执行304。可选的,在输出所述数据项和Word_full之后,还可以根据数据项中是否含有未翻译的中文设置规范化标志(规范化标志可理解为翻译结果的一种属性,例如:规范化标志为“否”表示数据项的翻译结果包含中文,为“是”表示数据项的翻译结果不包含中文),针对规范化标志为“否”的数据项可进行后续处理,例如:修改该数据项或在基本词词库中新增基本词。
304:More指针一直往下走,设Head为当前访问组的组头,Tail为当前访问组的组尾。
305:从Head至Tail的当前访问组中,是否查找到最左基本词?如果否,则执行303,如果是则执行306。
306:最左基本词的开头两个字是否与前驱词构成基本词词库中的基本词?如果是,则执行305,否则执行307。
307:最左基本词的结尾一个字是否与后继词构成基本词词库中的基本词?如果是,则执行305,否则执行308,其中308属于可选步骤,也可以直接执行309。
308:将最左基本词在基本词词库中的访问频率加1,以便于更新基本词词库中基本词的排序。
309:分别用最左基本词的对应英文全称和简称替换所述数据项和Word_full中的相应中文,然后执行310。
310:判断所述数据项中是否包含中文,如果包含,则执行305以从所述当前访问组开始重新查找最左基本词,如果不包含,则执行311。
311:输出数据项和Word_full。此时输出的数据项为英文全称,输出的Word_full为相应英文简称。当然,也可以同时输出数据项的中文。
可选的,在311之后还可以执行312。
在本实施例中,301为可选步骤,通过执行301有利于快速查找到数据项的翻译结果。实际上,在本发明的另一种实施例中,可以将保留字清单中的内容作为基本词词库中的特殊基本词,这样,在302中,More指针可以首先指向基本词长度与所述输入项长度相同的组,这样就包含了从基本词词库中直接查找到所述数据项的完整翻译的可能。
在本实施例中,每一次确定出与所述数据项匹配的基本词之后,均用相应的英文词汇和英文缩写词代替所述数据项中的相应基本词,从而在最后次确认出与所述数据项匹配的基本词之后,输出翻译结果。可选的,也可以在确定出与所述数据项匹配的所有基本词之后,用相应的英文词汇和英文缩写词代替所述数据项中的相应基本词,进而输出翻译结果。
在本实施例中关于More指针的说明可以看出,在按照基本词长度从大到小依次查找不同的组时,可以将访问指针指向当前访问组的起始位置,然后按照所述访问指针自上至下的顺序查找当前查找的组内的各个基本词。
图4A是根据本发明实施例的一种翻译方法的流程示意图,参照图4A,所述方法包括:
400:输入数据项。
402:对所述数据项进行规范化检查,对于通过规范化检查的数据项,执行406;对于未通过规范化检查的数据项,执行404以进行规范化处理,之后执行406。其中,“规范化检查”是指:检查所述数据项是否由所述基本词词库中的基本词构成,并检查所述数据项是否以类词清单中的类词结尾;“规范化处理”是指,当所述数据项未通过规范化检查时,对所述数据项进行修改或对基本词词库和类词清单进行修改,直至该数据项通过规范化检查的处理过程。关于规范化检查和规范化处理流程的详细说明,请参照图4B所示实施例中的说明。
下面对类词进行说明:类词属于基本词,是中文数据项的最后一个基本词。类词反映了域组的概念,表达了中文数据项取值的属性(通过对金融领域的词汇进行总结和研究发现,这些词汇的属性的取值都有一定的规则和范围,这些规则在数据模型中可以“域”的方式定义。同时在习惯的属性命名中,中文名称的最后一个基本词通常一定程度上反应了属性的取值,为此可以将最后一个词单独划出来,加以规范管理)。通过对类词的规范化、标准化使用,可以更加清晰明确的反应数据项的属性。例如:身份证号码、客户编码、交易类型代码、客户偏好描述、客户偏好代码等,通过其名称中的类词(即下划线部分),即可对数据项的属性做初步的判断。一种示例性的规则如下:代码类属性的数据项以″代码″结尾,标志类属性的数据项(即表示是或否之类的属性)以″标志″结尾,编码类的数据项一般以“编码”或者“编号”结尾,文本类的数据项一般以“描述”结尾,数值类属性的数据项一般以“数值”,“值”,“天数”等结尾,日期类属性的数据项可以加“日期”或“期”结尾。
406:对规范化的数据项(包括:通过规范化检查的数据项和规范化处理之后的数据项)进行翻译,并输出翻译结果。具体的翻译方法请参照图1至图3所示实施例中的详细说明,此处不赘述。
可选的,本实施例的一种实现方式中,在406之后,所述方法还包括408:对输出的翻译结果进行检查。包括:首先检查输出的翻译结果是否包含未翻译为英文的部分,如果包含,则将规范化标志置为否;否则,将所述规范化标志置为是。然后根据所述规范化标志进行以下处理:如果所述规范化标志为是,则将输出的翻译结果保存在保留字清单,所述保留字清单用于保存已经完成翻译的数据项的翻译结果;如果所述规范化标志为否,则提示修改所述数据项,或根据所述未翻译为英文的部分在所述基本词词库中增加基本词。
可选的,在本实施例的一种实现方式中,在406中还输出翻译结果中的各个英文词汇的缩写词,组成缩写翻译结果。具体的,可从缩写词库中查找翻译结果中的各个英文词汇的缩写词,组成所述数据项的英文缩写词汇,其中,如果所述翻译结果中存在所述缩写词库中没有的英文词汇,则按照预设的缩写规则简化相应的英文词汇,得到的缩写词可补充至缩写词库中。
示例性的,目标语言的缩写规则可包括:
1:常用单词或词组如果已有业界习惯的缩写法,优先采用。如Database缩写为DB,China Construction Bank缩写为CCB。2:单词首字母保留。3:单词中间可省去A、E、I、O、U和Y。如China缩写Chn,Name缩写Nm,Write缩写Wrt。4:数字一律采用阿拉伯数字。例如:First缩写为1st,Five缩写为5。6:类似Of、′s、The在缩写中一般做省略处理。如The Peope′sRepublic Of China缩写为PRC,再例如Degree of Customer Relationship(客户关系度)在缩写时先按中文语序去除Of,即改为Customer Relationship Degree,然后缩写为CstRltnpDgr。7:To、For和And等一般予以保留。例如:Check Credit For Load(支票圈存)缩写为ChkCrForLoad,To Construct Area(应动工开发建设面积)缩写为ToCnstrctArea。8:诸如Pre、Re、Non等前缀全部保留且不缩写。如Pre-Repayment缩写为PreRpy,Non-operating Income(营业外收入)缩写为NonOprgIncm。9:时态/词性省略原则,诸如“-s,-ing,-ed,-tion,-ment”等词语的缩写与原词的缩写词相同,例如:Table和Tables的缩写词都是Tbl,Payment与Pay的缩写词都是Py。10:只有四个字母的单词可以不缩写,原则上每个单词缩写后的总长度不超过5个字符,缩写结果保证大致可读即可。
示例性的,一种确定英文单词的缩写词的方法的流程示意图请参照图5,图5中的流程图已经比较详细(其中,“Tail1=空串”表示当后缀为诸如“s,ing,ed,tion,ment”等后缀时,直接省略后缀,以至于拼装时Tail1不包含任何字母),此处不进行详述。
图4B是根据本发明实施例的一种规范化检查的方法的流程示意图,本领域技术人员应当理解,对图4B所示实施例进行适当修改(例如:修改流程的输入项)即可应用至图4A或本发明其他处所示实施例中需要进行规范化检查的步骤中。下面对图4B所示实施例进行说明。
参照图4B,该方法包括:
401′:输入《数据要求说明书》,所述《数据要求说明书》为待翻译数据项的集合。
402′:基于当前的基本词词库和类词清单对《数据要求说明书》中的数据项进行规范化检查,即,检查《数据要求说明书》中的数据项是否由当前的基本词词库中的基本词以及当前的类词清单中的类词构成。
403′:如果未通过规范化检查,则执行404′。如果通过规范化检查,则《数据要求说明书》中的数据项可以进行翻译操作,此时可执行408′。
404′:判断是否需要新增基本词和类词,如果需要则执行405′;如果不需要,则进行以下处理:反馈修改意见并根据修改意见修改《数据要求说明书》,基于修改的《数据要求说明书》执行402′。
示例性的,当待翻译数据项中存在的词与基本词词库中的基本词语意相同但属于错字、别字时,无需新增基本词,可以仅反馈修改意见(例如:将错字、别字修改为正确的字。例如:“帐号”统一改为“账号”,“币别”统一改为“币种,“其它”统一改为“其他”);当待翻译数据项中结尾的词与类词清单中的类词语意相同但属于错字、别字时,无需新增类词,可以仅反馈修改意见(例如:将错字、别字修改为正确的字/词);当待翻译数据项中结尾的词不是类词清单中的类词时,可以根据该待翻译数据项的实际属性反馈修改意见(例如:在该待翻译数据项的结尾处添加已有的类词。例如:待翻译数据项“任务类型”,其表示代码类属性,可以改为“任务类型代码”),或可以根据该待翻译数据项的结尾的词新增一个类词;除上述情况之外的情况,可以考虑执行405′。
在404′中所进行的判断过程可以由人工执行,也可以建立用于与待翻译数据项进行对比的数据库或建立专门的错字、别字清单,通过对比进行确定。
405′:输出新增基本词和类词,例如:以基本词清单和类词清单的形式输出。
406′:对新增的基本词和类词进行缩写转换(例如:参照图5所示实施例),从而更新缩写词库。
407′:基于新增的基本词和类词更新当前的基本词词库和类词清单。
408′:对通过规范化检查或经过规范化处理的数据项进行翻译(具体的翻译操作请参照本发明相应实施例)。
409′:生成《数据要求说明书》中所有数据项的英文全称和英文简称、并设置规范化标志(对于规范化标志的说明请参照图3所示实施例)。
图4B所示方法与本申请中的一些翻译方法相互结合,一方面,可以通过翻译程序的基本词检查和类词检查找出一些不合规的数据,并通过改正予以规范化处理,另一方面,前期进行规范化的数据可以提高后期翻译的准确性。
利用图4B所示的规范化检查方法,不仅能够在翻译之前对待翻译内容(例如:待翻译数据项或待翻译数据项的集合)进行规范化处理,还能够降低维护成本,因为随着词库的基本词被复用的越来越多,随着时间的推移需要添加的基本词会越来越少,因此,本发明所提供的各种方法特别适用于企业级的应用。图6是根据本发明实施例的一种翻译装置的方块示意图,参照图6,翻译装置60包括输入单元61、存储单元62、指针单元63、匹配查找单元64、第一处理单元65、第二处理单元66和输出单元67,下面分别进行说明。
输入单元61,用于输入数据项。
存储单元62,用于存储基本词词库,所述基本词词库按照基本词长度分组存储有基本词及对应英文词汇,相同长度的基本词属于同一基本词词组。
指针单元63,用于移动访问指针以按照基本词长度从大到小的顺序访问基本词词库中的基本词词组。
匹配查找单元64,用于在所述指针单元63当前访问的基本词词组中查找所述数据项的待翻译部分中具有独立语意且最靠近所述待翻译部分左侧的基本词作为匹配基本词,如果查找到所述匹配基本词,则触发第一处理单元65,否则触发第二处理单元66,其中,所述待翻译部分是所述数据项中未翻译为英文的部分。
第一处理单元65,用于将所述数据项中对应所述匹配基本词的内容翻译为英文并更新所述待翻译部分,之后判断所述数据项中是否还包含未翻译为英文的部分,如果包含,则触发所述匹配查找单元64;如果不包含,则触发输出单元67。
第二处理单元66,用于判断当前访问的基本词词组是否是最小长度的基本词词组,如果是,则触发输出单元67;如果不是,则触发所述指针单元63将访问指针移动至下一基本词词组,然后触发所述匹配查找单元64;
输出单元67,用于输出翻译结果。
本发明实施例所提供的翻译方法,能够根据基本词词库和查找机制对中文数据项进行翻译,得到符合中文数据项语意的翻译结果,准确度较高且符合领域内相关人员的业务习惯。此外,通过分组的方式存储基本词,有利于更加快速的查找基本词。
图7是根据本发明实施例的一种翻译装置的匹配查找单元的方块示意图,参照图7,匹配查找单元64包括:
查找子单元641,用于从指针单元63当前访问的基本词词组中查找最靠近待翻译部分左侧的基本词作为最左基本词。
第一判断子单元642,用于判断所述最左基本词的长度是否小于3个中文字,如果小于,则确定所述最左基本词具有独立语意,否则触发第二判断子单元643。
第二判断子单元643,用于根据所述最左基本词及其在所述待翻译部分中的前驱词和后继词,判断所述最左基本词是否具有独立语意。具体而言,第二判断子单元643可以包括:构成词模块,用于将所述待翻译部分在所述最左基本词之前的一个字与所述最左基本词的开头两个字组合构成第一构成词,将所述最左基本词的结尾一个字与所述待翻译部分在所述最左基本词之后的一个字组合构成第二构成词;判断模块,用于查找所述基本词词库以判断所述第一构成词和第二构成词是否属于基本词,如果均不属于基本词,则所述最左基本词具有独立语意;否则,不具备独立语意。
其中,当所述第二判断子单元643确定所述最左基本词不具有独立语意时,所述查找子单元641还用于在当前访问的基本词词组中重新查找最左基本词,并调用所述第一判断子单元642和第二判断子单元643,直至确定出所述匹配基本词或直至确定不存在所述匹配基本词。
显然,匹配查找单元64通过重复调用查找子单元641、第一判断子单元642和第二判断子单元643能够在指针单元63当前访问的基本词词组中查找到匹配基本词或确定不含匹配基本词。
图8是根据本发明实施例的一种翻译装置的方块示意图,参照图8,翻译装置80除了包括输入单元61、存储单元62、指针单元63、匹配查找单元64、第一处理单元65、第二处理单元66和输出单元67外,还包括保留字查找单元81。
在本实施例中,存储单元62除了具有图6所示实施例中的功能外,还用于存储保留字清单,所述保留字清单用于保存已经完成翻译的数据项的翻译结果。所述保留字查找单元81用于查找所述保留字清单,如果未命中所述数据项,则触发所述指针单元63访问所述基本词词库中的基本词词组;如果命中所述数据项,则可以直接输出所述数据项的翻译结果。
图9是根据本发明实施例的一种翻译装置的方块示意图,参照图9,翻译装置90除了包括输入单元61、存储单元62、指针单元63、匹配查找单元64、第一处理单元65、第二处理单元66和输出单元67外,还包括检查单元91和第三处理单元92。其中,
检查单元91,用于检查输出的翻译结果是否包含未翻译为英文的部分,如果包含,则将规范化标志置为否;否则,将所述规范化标志置为是;
第三处理单元92,用于根据所述规范化标志进行以下处理:如果所述规范化标志为是,则将输出的翻译结果保存在保留字清单,所述保留字清单用于保存已经完成翻译的数据项的翻译结果;如果所述规范化标志为否,则提示修改所述数据项,或根据所述未翻译为英文的部分在所述基本词词库中增加基本词。
本领域技术人员应当理解,利用图9所示实施例,不仅可以实现中文数据项的准确、快速的翻译,还能有效地对整个翻译系统进行维护。
图10是根据本发明实施例的一种翻译装置的方块示意图,参照图10,翻译装置100除了包括输入单元61、存储单元62、指针单元63、匹配查找单元64、第一处理单元65、第二处理单元66和输出单元67外,还包括基本词检查单元101和/或类词检查单元102。
所述基本词检查单元101,用于检查所述数据项是否由所述基本词词库中的基本词构成。此时,所述输出单元67还用于在所述数据项不是由基本词构成的时候,输出所述数据项中未包含在所述基本词词库中的内容,以更新所述基本词词库或修改所述数据项(该动作可以发生在指针单元63访问基本词词组之前或发生在输出单元67输出翻译结果之后)。
所述类词检查单元102,用于根据类词清单检查所述数据项是否以类词结尾。此时,所述存储单元62还存储有类词清单,所述类词清单保存有各种用于表示数据项属性的类词。所述输出单元67还用于在所述数据项不是以类词结尾时,输出所述数据项,以更新所述类词清单或修改所述数据项(该动作可以发生在指针单元63访问基本词词组之前或发生在输出单元67输出翻译结果之后)。
在根据本发明的另一种实施例中(未图示),翻译装置除了可以包括图6至图10所示实施例中的各个单元外,还可以包括缩写单元,用于从缩写词库中查找由输出单元67输出的翻译结果中各个英文词汇的缩写词,组成所述数据项的英文缩写词汇,以及在翻译结果中存在所述缩写词库中没有的英文词汇时,按照预设的缩写规则确定该英文词汇的缩写词。在这种情况下,存储单元62还用于存储所述缩写词库,输出单元67还用于输出所述数据项的英文缩写词汇。
本发明所提供的各种方法、装置实施例适用于专业领域的词汇和短语的翻译和规范化操作,翻译具有针对性且准确率高(准确率一般在95%以上)。此外,对本发明所提供的方法和装置进行维护的成本与时间成反比,这是因为词库的基本词被复用的越来越多,所以越往后需要添加的基本词越少,例如,在基本词词库中的基本词达到一定量之后,当新增数百个数据项时,只需要在基本词词库中添加数个基本词即可。当基本词趋于饱和后,工作重点在于规范化检查的修改操作而不是基本词的新增操作。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现,当然也可以全部通过硬件来实施。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上所揭露的仅为本发明的优选实施例而已,当然不能以此来限定本发明的保护范围,因此依本发明权利要求的教导对上述实施例所作的等同变化,仍属于本发明权利要求所涵盖的范围内。
Claims (13)
1.一种翻译方法,其特征在于,包括:
输入数据项;
移动访问指针以按照基本词长度从大到小的顺序访问基本词词库中的基本词词组,其中,所述基本词词库按照基本词长度分组存储有基本词及对应英文词汇,相同长度的基本词属于同一基本词词组;
操作a:在当前访问的基本词词组中查找所述数据项的待翻译部分中具有独立语意且最靠近所述待翻译部分左侧的基本词作为匹配基本词,如果查找到所述匹配基本词,则执行操作b,否则执行操作c,所述待翻译部分是所述数据项中未翻译为英文的部分;
操作b:将所述数据项中对应所述匹配基本词的内容翻译为英文并更新所述待翻译部分,然后判断所述数据项中是否还包含未翻译为英文的部分,如果包含,则执行操作a;如果不包含,则输出翻译结果;
操作c:判断当前访问的基本词词组是否是最小长度的基本词词组,如果是,则输出翻译结果;如果不是,则移动访问指针至下一基本词词组并执行操作a;
其中,在操作a中,在当前访问的基本词词组中查找所述数据项的待翻译部分中具有独立语意且最靠近所述待翻译部分左侧的基本词作为匹配基本词,包括:
查找最靠近所述待翻译部分左侧的基本词作为最左基本词,并根据以下判断确定所述最左基本词是否具有独立语意:
如果所述最左基本词的长度小于3个中文字,则具有独立语意,
如果所述最左基本词的长度大于或等于3个中文字,则根据所述最左基本词及其在所述待翻译部分中的前驱词和后继词,判断所述最左基本词是否具有独立语意,其中,
当确定所述最左基本词不具有独立语意时,在当前访问的基本词词组中重新查找最左基本词并判断是否具有独立语意,直至确定出所述匹配基本词或直至确定不存在所述匹配基本词。
2.如权利要求1所述的方法,其特征在于,根据所述最左基本词及其在所述待翻译部分中的前驱词和后继词,判断所述最左基本词是否具有独立语意,包括:
将所述待翻译部分在所述最左基本词之前的一个字与所述最左基本词的开头两个字组合构成第一构成词,将所述最左基本词的结尾一个字与所述待翻译部分在所述最左基本词之后的一个字组合构成第二构成词,判断所述第一构成词和第二构成词是否均不属于基本词,如果均不属于基本词,则所述最左基本词具有独立语意;否则,不具备独立语意。
3.如权利要求1或2所述的方法,其特征在于,在输入所述数据项之后,所述方法还包括:
查找保留字清单,如果未命中所述数据项,则移动所述访问指针以访问所述基本词词库中的基本词词组,其中,所述保留字清单用于保存已经完成翻译的数据项的翻译结果。
4.如权利要求1或2所述的方法,其特征在于,在输出翻译结果后,所述方法还包括:
对输出的翻译结果进行规范化检查,包括:
检查输出的翻译结果是否包含未翻译为英文的部分,如果包含,则将规范化标志置为否;否则,将所述规范化标志置为是;
根据所述规范化标志进行以下处理:如果所述规范化标志为是,则将输出的翻译结果保存在保留字清单,所述保留字清单用于保存已经完成翻译的数据项的翻译结果;如果所述规范化标志为否,则提示修改所述数据项,或根据所述未翻译为英文的部分在所述基本词词库中增加基本词。
5.如权利要求1或2所述的方法,其特征在于,在输入所述数据项之后,所述方法还包括:
检查所述数据项是否由所述基本词词库中的基本词构成,如果不是,则输出所述数据项中未包含在所述基本词词库中的内容,以更新所述基本词词库或修改所述数据项;
根据类词清单检查所述数据项是否以类词结尾,如果不是,则输出所述数据项,以更新所述类词清单或修改所述数据项,其中,所述类词清单保存有各种用于表示数据项属性的类词。
6.如权利要求1或2所述的方法,其特征在于,在输出翻译结果的同时,所述方法还包括:
从缩写词库中查找翻译结果中各个英文词汇的缩写词,组成所述数据项的英文缩写词汇并输出,其中,如果翻译结果中存在所述缩写词库中没有的英文词汇,则按照预设的缩写规则确定该英文词汇的缩写词。
7.一种翻译装置,其特征在于,包括:
输入单元,用于输入数据项;
存储单元,用于存储基本词词库,所述基本词词库按照基本词长度分组存储有基本词及对应英文词汇,相同长度的基本词属于同一基本词词组;
指针单元,用于移动访问指针以按照基本词长度从大到小的顺序访问基本词词库中的基本词词组;
匹配查找单元,用于在所述指针单元当前访问的基本词词组中查找所述数据项的待翻译部分中具有独立语意且最靠近所述待翻译部分左侧的基本词作为匹配基本词,如果查找到所述匹配基本词,则触发第一处理单元,否则触发第二处理单元,其中,所述待翻译部分是所述数据项中未翻译为英文的部分;
第一处理单元,用于将所述数据项中对应所述匹配基本词的内容翻译为英文并更新所述待翻译部分,之后判断所述数据项中是否还包含未翻译为英文的部分,如果包含,则触发所述匹配查找单元;如果不包含,则触发输出单元;
第二处理单元,用于判断当前访问的基本词词组是否是最小长度的基本词词组,如果是,则触发输出单元;如果不是,则触发所述指针单元将访问指针移动至下一基本词词组,然后触发所述匹配查找单元;
输出单元,用于输出翻译结果;
其中,所述匹配查找单元包括:
查找子单元,用于从所述指针单元当前访问的基本词词组中查找最靠近所述待翻译部分左侧的基本词作为最左基本词,
第一判断子单元,用于判断所述最左基本词的长度是否小于3个中文字,如果小于,则确定所述最左基本词具有独立语意,否则触发第二判断子单元,
第二判断子单元,用于根据所述最左基本词及其在所述待翻译部分中的前驱词和后继词,判断所述最左基本词是否具有独立语意,
其中,当所述第二判断子单元确定所述最左基本词不具有独立语意时,所述查找子单元还用于在当前访问的基本词词组中重新查找最左基本词,并调用所述第一判断子单元和第二判断子单元,直至确定出所述匹配基本词或直至确定不存在所述匹配基本词。
8.如权利要求7所述的装置,其特征在于,所述第二判断子单元包括:
构成词模块,用于将所述待翻译部分在所述最左基本词之前的一个字与所述最左基本词的开头两个字组合构成第一构成词,将所述最左基本词的结尾一个字与所述待翻译部分在所述最左基本词之后的一个字组合构成第二构成词;
判断模块,用于查找所述基本词词库以判断所述第一构成词和第二构成词是否属于基本词,如果均不属于基本词,则所述最左基本词具有独立语意;否则,不具备独立语意。
9.如权利要求7或8所述的装置,其特征在于,
所述存储单元还存储有保留字清单,所述保留字清单用于保存已经完成翻译的数据项的翻译结果;
所述装置还包括保留字查找单元,用于查找所述保留字清单,如果未命中所述数据项,则触发所述指针单元访问所述基本词词库中的基本词词组。
10.如权利要求7或8所述的装置,其特征在于,所述装置还包括:
检查单元,用于检查输出的翻译结果是否包含未翻译为英文的部分,如果包含,则将规范化标志置为否;否则,将所述规范化标志置为是;
第三处理单元,用于根据所述规范化标志进行以下处理:如果所述规范化标志为是,则将输出的翻译结果保存在保留字清单,所述保留字清单用于保存已经完成翻译的数据项的翻译结果;如果所述规范化标志为否,则提示修改所述数据项,或根据所述未翻译为英文的部分在所述基本词词库中增加基本词。
11.如权利要求7或8所述的装置,其特征在于,
所述装置还包括基本词检查单元,用于检查所述数据项是否由所述基本词词库中的基本词构成;
所述输出单元还用于,在所述数据项不是由基本词构成的时候,输出所述数据项中未包含在所述基本词词库中的内容,以更新所述基本词词库或修改所述数据项。
12.如权利要求7或8所述的装置,其特征在于,
所述存储单元还存储有类词清单,所述类词清单保存有各种用于表示数据项属性的类词;
所述装置还包括类词检查单元,用于根据所述类词清单检查所述数据项是否以类词结尾;
所述输出单元还用于在所述数据项不是以类词结尾时,输出所述数据项,以更新所述类词清单或修改所述数据项。
13.如权利要求7或8所述的装置,其特征在于,
所述存储单元还存储有缩写词库;
所述装置还包括缩写单元,用于从所述缩写词库中查找翻译结果中各个英文词汇的缩写词,组成所述数据项的英文缩写词汇,以及在翻译结果中存在所述缩写词库中没有的英文词汇时,按照预设的缩写规则确定该英文词汇的缩写词;
所述输出单元还用于输出所述数据项的英文缩写词汇。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410024861.3A CN103793378B (zh) | 2014-01-20 | 2014-01-20 | 一种翻译方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410024861.3A CN103793378B (zh) | 2014-01-20 | 2014-01-20 | 一种翻译方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103793378A CN103793378A (zh) | 2014-05-14 |
CN103793378B true CN103793378B (zh) | 2017-05-10 |
Family
ID=50669063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410024861.3A Active CN103793378B (zh) | 2014-01-20 | 2014-01-20 | 一种翻译方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103793378B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108563645B (zh) * | 2018-04-24 | 2022-03-22 | 成都智信电子技术有限公司 | His系统的元数据翻译方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1134567A (zh) * | 1995-11-29 | 1996-10-30 | 陈肇雄 | 英汉翻译系统的词法分析算法 |
CN1360302A (zh) * | 2000-12-21 | 2002-07-24 | 意蓝科技股份有限公司 | 中文断词法 |
CN1556480A (zh) * | 2003-12-30 | 2004-12-22 | 珠海金山软件股份有限公司 | 电子词典语义分析方法 |
CN101566882A (zh) * | 2009-06-02 | 2009-10-28 | 腾讯科技(深圳)有限公司 | 文字输入系统及文字输入方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2552622A1 (en) * | 2004-01-06 | 2005-07-21 | In-Seop Lee | The auto translator and the method thereof and the recording medium to program it |
US8145473B2 (en) * | 2006-10-10 | 2012-03-27 | Abbyy Software Ltd. | Deep model statistics method for machine translation |
-
2014
- 2014-01-20 CN CN201410024861.3A patent/CN103793378B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1134567A (zh) * | 1995-11-29 | 1996-10-30 | 陈肇雄 | 英汉翻译系统的词法分析算法 |
CN1360302A (zh) * | 2000-12-21 | 2002-07-24 | 意蓝科技股份有限公司 | 中文断词法 |
CN1556480A (zh) * | 2003-12-30 | 2004-12-22 | 珠海金山软件股份有限公司 | 电子词典语义分析方法 |
CN101566882A (zh) * | 2009-06-02 | 2009-10-28 | 腾讯科技(深圳)有限公司 | 文字输入系统及文字输入方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103793378A (zh) | 2014-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fevry et al. | Unsupervised sentence compression using denoising auto-encoders | |
US5895446A (en) | Pattern-based translation method and system | |
CN107870901B (zh) | 从翻译源原文生成相似文的方法、记录介质、装置以及系统 | |
JP3768105B2 (ja) | 翻訳装置、翻訳方法並びに翻訳プログラム | |
US6098034A (en) | Method for standardizing phrasing in a document | |
US7516125B2 (en) | Processor for fast contextual searching | |
Pranckevičius et al. | Application of logistic regression with part-of-the-speech tagging for multi-class text classification | |
US20060253274A1 (en) | Methods and systems relating to information extraction | |
US9594742B2 (en) | Method and apparatus for matching misspellings caused by phonetic variations | |
CN111414746B (zh) | 一种匹配语句确定方法、装置、设备及存储介质 | |
CN103140849A (zh) | 音译处理装置、程序、记录媒体及方法 | |
JP6817556B2 (ja) | 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム | |
CN113076748A (zh) | 弹幕敏感词的处理方法、装置、设备及存储介质 | |
US20190303437A1 (en) | Status reporting with natural language processing risk assessment | |
JP6799562B2 (ja) | 言語特徴の抽出装置、固有表現の抽出装置、抽出方法、及びプログラム | |
KR20230103782A (ko) | 사전학습 언어모델을 활용한 트랜스포머 기반 텍스트 요약 방법 및 장치 | |
Naz et al. | Urdu part of speech tagging using transformation based error driven learning | |
CN110287495A (zh) | 一种电力营销专业词识别方法及系统 | |
CN103793378B (zh) | 一种翻译方法和装置 | |
Laskar et al. | Improving named entity recognition in telephone conversations via effective active learning with human in the loop | |
CN110413972A (zh) | 一种基于nlp技术的表名字段名智能补全方法 | |
Munjishvili et al. | The semantic analysis method and algorithms of open tests answers on “cyber-2” pattern in the knowledge revival and evaluation systems | |
CN109614494A (zh) | 一种文本分类方法及相关装置 | |
Tur et al. | Semi-supervised learning for spoken language understanding semantic role labeling | |
Torunoglu-Selamet et al. | Exploring spelling correction approaches for turkish |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |