CN102831109A - 一种基于智能匹配的机器翻译装置及其方法 - Google Patents

一种基于智能匹配的机器翻译装置及其方法 Download PDF

Info

Publication number
CN102831109A
CN102831109A CN2012102812809A CN201210281280A CN102831109A CN 102831109 A CN102831109 A CN 102831109A CN 2012102812809 A CN2012102812809 A CN 2012102812809A CN 201210281280 A CN201210281280 A CN 201210281280A CN 102831109 A CN102831109 A CN 102831109A
Authority
CN
China
Prior art keywords
sentence
carry out
translation
storehouse
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012102812809A
Other languages
English (en)
Other versions
CN102831109B (zh
Inventor
俞莲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHINA PATENT INFORMATION CENTER
Original Assignee
CHINA PATENT INFORMATION CENTER
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHINA PATENT INFORMATION CENTER filed Critical CHINA PATENT INFORMATION CENTER
Priority to CN201210281280.9A priority Critical patent/CN102831109B/zh
Publication of CN102831109A publication Critical patent/CN102831109A/zh
Application granted granted Critical
Publication of CN102831109B publication Critical patent/CN102831109B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明设计了一种智能匹配的机器翻译装置及其方法,该方法包括以下步骤:A步骤:进行语料预处理步骤,对分领域语料进行词频统计并标注;B步骤:进行句库建设步骤,利用分领域英译汉语料建设句库;C步骤:进行词库建设步骤,根据所述语料预处理步骤和句库建设步骤,建设词库;D步骤:进行机器翻译步骤,首先根据所述句库建设步骤和词库建设步骤,人工制定中文短语节点构成的短语框架及其翻译规则,以及识别中文句子支点的规则;利用所述句库、语法标识和短语框架自动生成句子构架模板库;寻找构架匹配句。

Description

一种基于智能匹配的机器翻译装置及其方法
技术领域
本发明涉及机器翻译技术领域,尤其涉及一种基于智能匹配的机器翻译装置及其方法。
背景技术
随着技术、经济全球化趋势,克服语言障碍以利国际交流日趋迫切。具体说,一方面令用户直接阅读和理解非母语资料;另一方面,辅助翻译人员更准确、省力和高效地完成笔头翻译工作。
机器翻译技术被寄予厚望,其主要包括语料库(句库/词库)建设和句子翻译两个部分。显然,人工建语料库成本高而效率低。目前,机器建句库时,平行语料比对区域的划分比较机械和繁琐,例如需反复划分比对区域,此外因两种语言句子不一一对应而出现遗漏匹配句并造成语料资源浪费、效率和准确度较低的问题;机器建词库时,对一词多译情况(即同义词问题)不能很好处理;机器翻译主要分规则机器翻译和统计机器翻译,前者繁琐且耗时费力,后者因统计建模过程中完全依赖于对平行语料的概率统计,翻译效果欠佳;模板机器翻译的模板构造是以具体词作基础,使用的灵便性和通配性不够好,且只能解决一些常用固定句型;此外,动词固定搭配这一翻译难点,目前机器翻译尚未很好解决。
通过对机器翻译装置及其方法的现有技术的检索,发现在中国发明专利公开号为CN 101271452A中公开了一种生成译文和机器翻译的方法及其装置,该专利文献(下文中称为D1)具有以下特征:①对待翻译句进行片段分割;②在例句库中查找与所述每个片段对应的一个或多个译文片段;③根据多个特征函数计算片段组合综合得分得出最优片段组合;(多个特征函数指基于双语例句的机器翻译系统的译文生成模型中包含的多种翻译知识(在模型中翻译知识被称为特征函数,例如:待翻译句和例句之间的相似度,例句可信度,译文流利度)。然而该专利文献(D1)存在以下缺点:(1)根据特征函数在句库中寻找最优片段组合,而所述特征函数指基于双语例句的机器翻译系统的译文生成模型中包含的多种翻译知识,例如:待翻译句和例句之间的相似度,例句可信度,译文流利度。所述“翻译知识”多是基于统计和概率得出,而非从语言特点(尤其是中文)出发,因此准确性不够;(2)D1的译文生成是基于句库中与待翻译句相对应的片段最优组合,所述“片段最优组合”是基于特征函数(翻译知识),而特征函数多是基于统计和概率得出,有较大不确定性,并因此导致一些片段翻译的不确定,造成词汇翻译前后不一致。
同时在另一篇中国发明专利公开号为CN 10174137A中公开了一种评价、选择例句对,构建通用句库,机器翻译的方法及装置,该专利文献(下文中称为D2)具有以下特点:①根据给定例句对的第一语种例句在双语语料库中的覆盖率和/或给定例句对的第一语种和第二语种例句之间的一致性,计算所述给定例句对的得分来构建通用例句库,即例句对的筛选;②机器翻译方法,从所构建的通用例句库中查找第一语种与待翻译句子相似的例句,为两者第一语种区分部分准备相应译文,然后结合两者相似部分和区别部分的译文组合生成参考译文。然而该专利文献(D2)存在以下缺点:D2从所构建的通用例句库中查找第一语种与待翻译句子相似的例句,为两者第一语种区分部分准备相应译文,然后结合两者相似部分和区别部分的译文组合生成参考译文。所述句子第一语种相似部分和区别部分限于文字本身意思的层面,而对语言特点(如构成句子的关键要素)较为忽略,准确性不够。
发明内容
为克服现有技术的上述缺陷,本发明设计了一种基于智能匹配的机器翻译装置及其方法。该技术主要是基于句子构架匹配和智能组句的汉英机器翻译技术。相对于D1、D2而言,本发明具有以下优点:首先,本申请从语言特点出发,根据短语节点组成的短语框架及其构成规则以及中文核心动词识别规则(预先制定),在句子构架模板库寻找与待翻译句子构架(核心动词+短语框架)匹配的句子进行套译,若未找到匹配句,则按规则(预先制定)进行翻译;充分考虑了构成句子的关键要素即核心动词和短语,准确性较高。其次,本申请的译文生成基于句子构架模板库与待翻译句子构架(核心动词+短语框架)的匹配,或按基于句子构架的规则(预先制定)进行翻译,词语按预先建成的词库翻译,前后一致,准确性好。最后,本申请则通过计算例句对的第一语种与第二语种的匹配率构建句库,并在此基础上根据中文短语节点和短语框架构成规则(预先制定)以及英文核心动词特征生成句子构架模板库,不仅质量较高、容量合理,而且更加科学和智能。
根据本发明的一个方面,提出了一种智能匹配的机器翻译方法,该方法包括以下步骤:A步骤:进行语料预处理步骤,对分领域语料进行词频统计并标注;B步骤:进行句库建设步骤,利用分领域英译汉语料建设句库;C步骤:进行词库建设步骤,根据所述语料预处理步骤和句库建设步骤,建设词库;D步骤:进行机器翻译步骤,首先根据所述句库建设步骤和词库建设步骤,人工制定中文短语节点构成的短语框架及其翻译规则,以及识别中文句子支点的规则;利用所述句库、语法标识和短语框架自动生成句子构架模板库;寻找构架匹配句;其中,如果待译中文句与某一构架模板相匹配,则套用构架模板进行翻译;如果未匹配,则对未匹配待译中文句,进行智能组句机器翻译。
根据本发明的另一方面,提出了一种智能匹配的机器翻译装置,其包括:语料预处理模块,该模块对分领域语料进行词频统计并标注;句库建设模块,该模块利用分领域英译汉语料建设句库;词库建设模块,该模块根据所述语料预处理步骤和句库建设步骤,建设词库;机器翻译模块,该模块首先根据所述句库建设步骤和词库建设步骤,人工制定中文短语节点构成的短语框架及其翻译规则,以及识别中文句子支点的规则;利用所述句库、语法标识和短语框架自动生成句子构架模板库;寻找构架匹配句;其中,该机器翻译模块如果确定待译中文句与某一构架模板相匹配,则套用构架模板进行翻译;如果未匹配,则对未匹配待译中文句,按进行智能组句机器翻译
通过该技术本发明可以取得以下有益效果:
(1)采用段落对齐和“动态比对域”句对齐方法,在各段落同时进行英文逐句与“动态比对域”内的若干中文句比对,句库生成效率高,比对精准性好,方法简单,解决了现有句库生成方法繁复、精确性低、语料浪费及效率和效果之间的矛盾。
(2)通过词语语法标识(主要是动词标识)、中文句核心动词识别规则以及短语节点构成的短语框架及其翻译规则,自动生成句子构架模板库,改基于词语概率的句子匹配为基于核心动词和短语框架的构架匹配,未匹配的待译句按一定规则(预先制定)智能组句,提高了句子匹配率及非匹配句翻译效果。
附图说明
图1是根据本发明实施例的基于句子构架匹配和智能组句的机器翻译方法的实现流程图;
图2A是根据本发明实施例的机器翻译方法中的语料预处理具体流程图;
图2B是根据本发明实施例的机器翻译方法中的句库建设具体流程图;
图2C是根据本发明实施例的机器翻译方法中的词库建设具体流程图;
图2D是根据本发明实施例的机器翻译方法中的机器翻译具体流程图;
图3是根据本发明实施例的句对齐步骤的中文“动态可调比对域”示意图;
图4是根据本发明实施例的机器翻译装置的内部结构示意图。
如图所示,为了能明确实现本发明的实施例的结构,在图中标注了特定的结构和器件,但这仅为示意需要,并非意图将本发明限定在该特定结构、器件和环境中,根据具体需要,本领域的普通技术人员可以将这些器件和环境进行调整或者修改,所进行的调整或者修改仍然包括在后附的权利要求的范围中。
具体实施方式
下面结合附图和具体实施例对本发明提供的一种智能匹配的机器翻译装置及其方法进行详细描述。同时在这里做以说明的是,为了使实施例更加详尽,下面的实施例为最佳、优选实施例,对于一些公知技术本领域技术人员也可采用其他替代方式而进行实施;而且附图部分仅是为了更具体的描述实施例,而并不旨在对本发明进行具体的限定。
如图1所示,图1提供了一种句子构架匹配和智能组句的汉英机器翻译方法总体技术方案实现流程图,该方法包括以下步骤:
首先进程行进至A步骤,在A步骤中进行语料预处理,对分领域语料进行词频统计并标注,针对具有细分类的语料(如专利文献)根据词频与分类的关系,对在某分类具有突出高频率的词汇加注相应分类标识。
接着进程行进至B步骤,在B步骤进行句库建设,利用分领域(细分类)英译汉语料建设句库。
接着进程行进至C步骤,在C步骤中进行词库建设,根据所述语料预处理步骤和句库建设步骤,利用英文词典中词性(动词)标注和英文谓语动词的特征,建立含同义词,动词、主语等语法标识和分类标识的词库。
接着进程行进至D步骤进行机器翻译,在D步骤中主要包括以下步骤:首先根据所述句库建设步骤和词库建设步骤,人工制定中文短语节点构成的短语框架及其翻译规则,以及识别中文句子支点(核心动词)的规则;利用所述句库、语法标识和短语框架自动生成由核心动词(虚拟)和短语节点组成的句子构架模板库;寻找构架匹配句。
如果待译中文句与某一构架模板相匹配,即中文核心动词(虚拟)和短语节点完全匹配,则套用构架模板进行翻译;如果未匹配,则对未匹配待译中文句进行智能组句机器翻译,即,按<主语+核心动词+短语>格式及所述短语框架翻译规则进行翻译。
接下来,通过参照图2A-图2D,来更加详细的描述本发明的汉英机器翻译方法的具体步骤的流程图。
对需要翻译的文本首先进行语料预处理,具体流程图如图2A所示。
在步骤A01中,选取英译中分领域语料,本实施例选取专利领域语料。
在步骤A02中,首先进行分领域的语料预处理(A0201),用词频统计单元对英文语料进行词频统计并做出词频标注(A0202),针对具有细分类的语料(如专利文献),对在某分类具有突出高频率的英文词后加注分类号作分类标识(A0203)。在这里需要说明的是词频统计单元为本领域的现有技术,既可以通过软件来实现,也可以采用专用的硬件来实现。
本实施例语料具有国际分类,如:电通信技术分类号为H04,根据所述对英文语料进行的词频统计,英文词delay在H04分类中比其它分类具有突出高的频率,故在delay后加注分类标识H04;
句库建设步骤的具体流程图如图2B所示。
在步骤B01中执行分句步骤,根据分句符分别将中、英文语料划分为多个语句,中、英文句号、逗号、分号和冒号(引号忽略)都作为各自语料的分句符,另外,中、英文中表示时间分隔的冒号和数字分隔的逗号,英文中的缩写和小数点不作为分句符处理;
在步骤B02中执行分词步骤,将分好的每个语句根据词典划分为多个词段组合,对于中文语句,将会影响对齐效果的介词或助词,如“之,乎,者,也”等,从语句中隐去,对于英文语句,将会影响对齐效果的介词,如“to,of,for,from”等从语句中隐去;
在步骤B03中执行段落与语句的对齐步骤,首先通过段落比对单元进行段落对齐,若中英文语料对应段落的首句和尾句相互匹配,执行段落对齐操作,否则放弃。
再通过语句比对单元进行句对齐,找出相互匹配的中、英文句子,执行句对齐操作,具体地,以英文句为基准(一句英文句比对一句或多句中文句),利用词典逐句与中文语料的一个区域的句子进行比对,该比对区域的句字数可在设定范围内动态调节(如1-10句),且新的比对区域总以前比对区域中最下方的比对成功的中文语句为中心(参见图3)。在这里需要说明的是段落比对单元、语句比对单元可以构成为同一单元,同时,该段落比对单元、语句比对单元对于本领域技术人员而言可以通过现有的技术手段来实现,既可以采用同一软件来执行,也可以采用同一专用的硬件来实现。
其中,所述两种语句的相互匹配是通过计算匹配率来确定,在该优选实施例中,通过查词典将英文语句逐词翻译成中文(含同义词),再将英文语句的词与中文语句的词逐一比对,匹配成功的词语数乘以2后,除以两个语句的词语总个数,即为这两个语句的匹配率,当匹配率大于设定值时,这两个语句相互匹配并存入匹配链表,该匹配链表存储在机器翻译装置内部的存储器中。然而,需要说明的是,上述匹配率的计算仅用于说明的目的,而并不在于将本发明限定于此,对于本领域技术人员也可以采用其它的计算方式来确定匹配率。
在对齐结束后形成的句库中,对齐的语句存储方式是,一条记录分为三个字段,分别为中文语句、英文语句和两语句的匹配率。最后将形成的句库存储在机器翻译装置内部的存储器中,该存储器可以为读/写存储器(ROM)或随机存取存储器(RAM),对于本领域技术人员也可以理解,该存储器也可以独立于该机器翻译装置而存在。
词库建设步骤的具体流程图如图2C所示。
如果句对齐,则在词库建设步骤中,进程先行进至步骤C01,在步骤C01中进行单词串抽取步骤,包括对在句对齐步骤中收集的对齐的中英文句对,利用自动对齐软件获取中英文句对中单词之间的对齐关系,再用短语抽取工具从单词级对齐好的语料中抽取短语并形成短语表,所述短语不是语言学上的短语,是连续的单词串;
在步骤C02中进行语法标识步骤,包括基于所述步骤B03和步骤C01,利用英文词典的词性(仅指动词)标注、英文谓语动词特征<如:动词形式是词尾s或es,be+过去分词>以及动词搭配特征<如:动词+距该动词最近介词>将英文句的相关动词加注“动词或核心动词标识”以及“动词搭配标识”<动词标识+介词>;此外,对谓语动词前长度受限(如6个以下单词)的词语(串)加注“主语标识”,再将所述标识映射到与之相匹配的中文词语(串);
在步骤C03中进行匹配词处理步骤,包括在所述分句、分词、句对齐和语法标识步骤基础上,将相互匹配的中、英文词语对中的中文词语用词典翻译成英文(一般有若干个英文同义词),所述同义词作为机器辅助翻译时的备选词,将这些同义词根据步骤A01所述英文语料词频统计按照相应的词汇频率从高到低进行排序,同一中文词具有不同英文匹配词时,合并为一组中、英文词语对,词库中英文词的排列顺序为:英文匹配词→词频→同义词→词频;
如果句未对齐,则在词库建设步骤中,进程先行进至步骤C04,在步骤C04中进行非匹配词处理步骤,包括根据所述分句、分词和句对齐步骤,对未匹配成功的中文词用词典翻译成英文,一般为若干英文同义词,这些同义词根据步骤A01所述英文语料词频统计按照相应的词汇频率从高到低进行排序,这些同义词与所述非匹配中文词形成中、英文词语对,最前英文词为首词,其余为备选词;
在步骤C05中进行词库形成步骤,主要包括根据所述句对齐步骤、有关标识步骤以及匹配词、非匹配词处理步骤,将包含中文匹配词、英文匹配词和相关英文同义词的词语组合,以及包含非匹配中文词及其英文同义词的词语组合,连同所述词语的相关标识形成词库。
机器翻译步骤的具体流程图如图2D所示:
在步骤D01中,进行中文短语框架制作步骤,包括根据分领域中文语料,人工制作由节点(中文字或词)构成该领域通用中文短语框架;
例:1.<用于导管的>操纵机构具有<限定水流量的>管状部件。
2.每个泡囊<由一层封闭物气密地封闭>。
其中,<用于…的>/<动词…的>/<由…动词>即为所述短语框架,节点“用于”和“由”等为具体型节点,“动词”为通配型节点;
在步骤D02中,制定所述短语框架在待译中文句中的结成方法及翻译规则步骤,包括制定中文句中短语框架的结成方法及翻译规则;
例如:按短语节点顺次结成短语框架,两节点较近者优先结成,框架中包含其它框架(内框架)的为外框架,翻译时外框架优先;
例1:一种防护针装置,包括①<具有②《从其前端伸出的》穿刺尖端的>针套管。(外框架①/内框架②,翻译顺序①>②);
A shieldable needle device includes a needle cannula ①having apuncture tip②extending from a forward end thereof.
例2:这可①<通过②《在注射器运动时》③《随其一起运动的》脱离元件的相互作用来实现>。
(外框架①,内框架②/③,翻译顺序为①>②/③)
This may be achieved①by interaction between a moving componentand a decoupling component that②moves with the syringe③as it isadvanced.
在步骤D03中,进行句子构架模板库生成步骤,根据步骤C02所述核心动词标识以及D01/D02所述短语框架及其结成方法,并利用步骤B03所述句库生成核心动词(虚拟)和短语框架组成的中英文句子构架模板库;
在步骤D04中待译中文句核心动词识别步骤,根据步骤C02所述动词或核心动词标识、主语标识,步骤D01所述的中文短语框架,以及中文句子语法特性识别中文标准句(以句号划分)核心动词:非开头动词→非短语中动词→非主语中动词→之前和之后均无“的”→最先出现的带动词标识的词,所述“主语”包括带主语标识的词语(串)、之前带“该”、“本”、“一种”等特征词、之后带“装置”、“设备”、“器”等特征词以及末尾无“的”的词;
例1:一种防护针装置,包括套筒和针套管。
其中,“一种防护针装置”带主语“特征词”,即之前带“一种”、之后带“装置”,除此,最先出现的动词“包括”为核心动词;
例2:形成材料层的线状体的缠绕在顶端部是紧密的。
其中,动词(带动词标识)“形成”位于句子开头、动词“缠绕”之前带“的”,除此,最先出现的动词“是”为该句的核心动词。
在步骤D07中寻找与待译中文句相匹配的句子构架模板。
在步骤D05中构架匹配的句子翻译步骤,包括根据所述中文核心动词识别步骤和短语框架结成方法,在句子构架模板库中找出与待译中文句构架完全匹配的中文句,即两中文句构架的支点(核心动词语法位置)及各短语框架完全匹配,则套用句子模板翻译;
选词顺序:针对具有细分类文献的机器或机助翻译,选词顺序是匹配词→分类标识→词频标识→同义词→分类标识→词频标识;
在步骤D06中智能组句翻译步骤,包括根据步骤D05所述构架匹配句翻译步骤以及步骤D02所述短语框架的结成和翻译规则,对在句子构架模板库中未找到构架匹配句的待译中文句,按<主语+核心动词+短语>格式翻译,非核心动词均用非谓语形式,其中有被动特征(如:被+动词)的用过去分词,其它用现在分词;
选词顺序:针对具有细分类文献的机器或机助翻译,选词顺序是匹配词→分类标识→词频标识→同义词→分类标识→词频标识。
根据本发明实施例的机器翻译装置的内部结构示意图如图4所示,其中该机器翻译装置包括语料预处理模块,该模块对分领域语料进行词频统计并标注;句库建设模块,该模块利用分领域英译汉语料建设句库;词库建设模块,该模块根据所述语料预处理步骤和句库建设步骤,建设词库;机器翻译模块,该模块首先根据所述句库建设步骤和词库建设步骤,人工制定中文短语节点构成的短语框架及其翻译规则,以及识别中文句子支点的规则;利用所述句库、语法标识和短语框架自动生成句子构架模板库;寻找构架匹配句;其中,该机器翻译模块如果确定待译中文句与某一构架模板相匹配,则套用构架模板进行翻译;如果未匹配,则对未匹配待译中文句,按进行智能组句机器翻译。该机器翻译装置中的上述模块,也分别根据它们的相应功能来执行上述方法中如图2A-图2D中的具体步骤,在这里不在赘述。
此外,该机器翻译装置还包括存储器,该存储器用于存储上述方法中获得的最终句库;同时该机器翻译装置还包括所述段落比对单元以及所述语句比对单元。同时,对于本领域技术人员应当理解当段落比对单元、语句比对单元采用同一软件来执行时,也可以存储在存储器中。
本发明涵盖任何在本发明的精髓和范围上做的替代、修改、等效方法以及方案。为了使公众对本发明有彻底的了解,在以下本发明优选实施例中详细说明了具体的细节,而对本领域技术人员来说没有这些细节的描述也可以完全理解本发明。另外,为了避免对本发明的实质造成不必要的混淆,并没有详细说明众所周知的方法、过程、流程、元件和电路等。
最后应说明的是,以上实施例仅用以描述本发明的技术方案而不是对本技术方法进行限制,本发明在应用上可以延伸为其他的修改、变化、应用和实施例,并且因此认为所有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。

Claims (10)

1.一种基于智能匹配的机器翻译方法,该方法包括以下步骤:
A步骤:进行语料预处理,对分领域语料进行词频统计并标注;
B步骤:进行句库建设,利用分领域英译汉语料建设句库;
C步骤:进行词库建设,根据所述语料预处理和句库建设,建设词库;
D步骤:进行机器翻译,首先根据所述句库建设和词库建设,制定中文短语节点构成的短语框架及其翻译规则,以及识别中文句子支点的规则;利用所述句库、语法标识和短语框架自动生成句子构架模板库;寻找构架匹配句;
其中,如果待译中文句与某一构架模板相匹配,则套用构架模板进行翻译;如果未匹配,则对未匹配待译中文句,进行智能组句机器翻译。
2.根据权利要求1所述的方法,其中在所述A步骤的进行语料预处理步骤中,具体包括:
A01步骤:选取英译中分领域语料;
A02步骤:首先进行分领域的语料预处理(A0201),用词频统计单元对英文语料进行词频统计并做出词频标注(A0202),针对具有细分类的语料,对在某分类具有突出高频率的英文词后加注分类号作分类标识(A0203)。
3.根据权利要求2所述的方法,其中在所述B步骤的进行句库建设步骤中,具体包括以下步骤:
B01步骤:执行分句步骤;
B02步骤:执行分词步骤;
B03步骤:执行段落与语句的对齐步骤。
4.根据权利要求3所述的方法,其中在所述B03步骤的执行段落与语句的对齐步骤中,具体包括以下步骤:
首先通过段落比对单元进行段落对齐,若中英文语料对应段落的首句和尾句相互匹配,执行段落对齐操作,否则放弃;再通过语句比对单元进行句对齐,找出相互匹配的中、英文句子,执行句对齐操作。
5.根据权利要求4所述的方法,其中所述段落比对单元、所述语句比对单元可以构成为同一单元。
6.根据权利要求4所述的方法,其中对齐结束后形成的句库中,对齐的语句存储方式是,一条记录分为三个字段,分别为中文语句、英文语句和两语句的匹配率;最后将形成的句库存储在机器翻译装置内部的存储器中。
7.根据权利要求3所述的方法,其中在所述C步骤的进行词库建设步骤中,具体包括以下步骤:
如果句对齐,则在词库建设步骤中,进程先行进至步骤C01,在步骤C01中进行单词串抽取步骤;
在步骤C02中进行语法标识步骤;
在步骤C03中进行匹配词处理步骤;
如果句未对齐,则在词库建设步骤中,进程先行进至步骤C04,在步骤C04中进行非匹配词处理步骤;
在步骤C05中进行词库形成步骤。
8.根据权利要求7所述的方法,其中在所述D步骤的进行机器翻译步骤中,具体包括以下步骤:
在步骤D01中,进行中文短语框架制作步骤;
在步骤D02中,制定所述短语框架在待译中文句中的结成方法及翻译规则步骤;
在步骤D03中,进行句子构架模板库生成步骤;
在步骤D04中,进行待译中文句核心动词识别步骤;
在步骤D07中,寻找与待译中文句相匹配的句子构架模板;
在步骤D05中,构架匹配的句子翻译步骤;
在步骤D06中,进行智能组句翻译步骤。
9.一种基于智能匹配的机器翻译装置,其包括:
语料预处理模块,该模块对分领域语料进行词频统计并标注;
句库建设模块,该模块利用分领域英译汉语料建设句库;
词库建设模块,该模块根据所述语料预处理步骤和句库建设步骤,建设词库;
机器翻译模块,该模块首先根据所述句库建设步骤和词库建设步骤,人工制定中文短语节点构成的短语框架及其翻译规则,以及识别中文句子支点的规则;利用所述句库、语法标识和短语框架自动生成句子构架模板库;寻找构架匹配句;
其中,该机器翻译模块如果确定待译中文句与某一构架模板相匹配,则套用构架模板进行翻译;如果未匹配,则对未匹配待译中文句,进行智能组句机器翻译。
10.根据权利要求9所述的机器翻译装置,其特征在于:该机器翻译装置还包括存储器,该存储器用于存储句库;同时该机器翻译装置还包括所述段落比对单元以及所述语句比对单元。
CN201210281280.9A 2012-08-08 2012-08-08 一种基于智能匹配的机器翻译装置及其方法 Active CN102831109B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210281280.9A CN102831109B (zh) 2012-08-08 2012-08-08 一种基于智能匹配的机器翻译装置及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210281280.9A CN102831109B (zh) 2012-08-08 2012-08-08 一种基于智能匹配的机器翻译装置及其方法

Publications (2)

Publication Number Publication Date
CN102831109A true CN102831109A (zh) 2012-12-19
CN102831109B CN102831109B (zh) 2016-01-13

Family

ID=47334252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210281280.9A Active CN102831109B (zh) 2012-08-08 2012-08-08 一种基于智能匹配的机器翻译装置及其方法

Country Status (1)

Country Link
CN (1) CN102831109B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440252A (zh) * 2013-07-25 2013-12-11 北京师范大学 一种中文句子中并列信息提取方法及装置
CN103530286A (zh) * 2013-10-31 2014-01-22 苏州大学 一种跨语言情感分类方法
CN103714051A (zh) * 2013-12-30 2014-04-09 传神联合(北京)信息技术有限公司 一种待译文档的预处理方法
CN103838718A (zh) * 2014-02-24 2014-06-04 武汉传神信息技术有限公司 一种翻译系统及翻译方法
CN104298662A (zh) * 2014-04-29 2015-01-21 中国专利信息中心 一种基于有机物命名实体的机器翻译方法及翻译系统
CN105843802A (zh) * 2016-03-31 2016-08-10 长安大学 翻译中语料介入模块及方法
CN105955958A (zh) * 2016-05-06 2016-09-21 长沙市麓智信息科技有限公司 英文专利申请文件撰写辅助系统及其撰写辅助方法
CN106776587A (zh) * 2016-12-19 2017-05-31 新译信息科技(深圳)有限公司 数据处理方法和装置
CN106897274A (zh) * 2017-01-09 2017-06-27 北京众荟信息技术股份有限公司 一种跨语种的点评复述方法
CN107193807A (zh) * 2017-05-12 2017-09-22 北京百度网讯科技有限公司 基于人工智能的语言转换处理方法、装置及终端
CN110489763A (zh) * 2019-07-18 2019-11-22 深圳市轱辘汽车维修技术有限公司 一种视频翻译方法及装置
CN112818711A (zh) * 2021-02-23 2021-05-18 湖北省地震局(中国地震局地震研究所) 一种翻译科技文献中一词多义的专业术语的机器翻译方法
CN114330376A (zh) * 2021-11-15 2022-04-12 甲骨易(北京)语言科技股份有限公司 一种计算机辅助翻译系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206643A (zh) * 2006-12-21 2008-06-25 中国科学院计算技术研究所 一种融合了句型模板和统计机器翻译技术的翻译方法
US20090164208A1 (en) * 2007-12-20 2009-06-25 Dengjun Ren Method and apparatus for aligning parallel spoken language corpora
CN101520776A (zh) * 2008-02-28 2009-09-02 刘建 一种双语段落对齐算法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206643A (zh) * 2006-12-21 2008-06-25 中国科学院计算技术研究所 一种融合了句型模板和统计机器翻译技术的翻译方法
US20090164208A1 (en) * 2007-12-20 2009-06-25 Dengjun Ren Method and apparatus for aligning parallel spoken language corpora
CN101520776A (zh) * 2008-02-28 2009-09-02 刘建 一种双语段落对齐算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周俏丽 等: "面向英文专利文本单语模板的自动抽取方法", 《沈阳航空工业学院学报》, vol. 27, no. 4, 31 August 2010 (2010-08-31), pages 37 - 40 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440252B (zh) * 2013-07-25 2016-11-16 北京师范大学 一种中文句子中并列信息提取方法及装置
CN103440252A (zh) * 2013-07-25 2013-12-11 北京师范大学 一种中文句子中并列信息提取方法及装置
CN103530286A (zh) * 2013-10-31 2014-01-22 苏州大学 一种跨语言情感分类方法
CN103714051A (zh) * 2013-12-30 2014-04-09 传神联合(北京)信息技术有限公司 一种待译文档的预处理方法
CN103714051B (zh) * 2013-12-30 2016-05-18 传神联合(北京)信息技术有限公司 一种待译文档的预处理方法
CN103838718A (zh) * 2014-02-24 2014-06-04 武汉传神信息技术有限公司 一种翻译系统及翻译方法
CN104298662A (zh) * 2014-04-29 2015-01-21 中国专利信息中心 一种基于有机物命名实体的机器翻译方法及翻译系统
CN104298662B (zh) * 2014-04-29 2017-10-10 中国专利信息中心 一种基于有机物命名实体的机器翻译方法及翻译系统
CN105843802A (zh) * 2016-03-31 2016-08-10 长安大学 翻译中语料介入模块及方法
CN105955958A (zh) * 2016-05-06 2016-09-21 长沙市麓智信息科技有限公司 英文专利申请文件撰写辅助系统及其撰写辅助方法
CN106776587A (zh) * 2016-12-19 2017-05-31 新译信息科技(深圳)有限公司 数据处理方法和装置
CN106897274A (zh) * 2017-01-09 2017-06-27 北京众荟信息技术股份有限公司 一种跨语种的点评复述方法
CN107193807A (zh) * 2017-05-12 2017-09-22 北京百度网讯科技有限公司 基于人工智能的语言转换处理方法、装置及终端
CN110489763A (zh) * 2019-07-18 2019-11-22 深圳市轱辘汽车维修技术有限公司 一种视频翻译方法及装置
CN110489763B (zh) * 2019-07-18 2023-03-10 深圳市轱辘车联数据技术有限公司 一种视频翻译方法及装置
CN112818711A (zh) * 2021-02-23 2021-05-18 湖北省地震局(中国地震局地震研究所) 一种翻译科技文献中一词多义的专业术语的机器翻译方法
CN112818711B (zh) * 2021-02-23 2023-11-03 湖北省地震局(中国地震局地震研究所) 一种翻译科技文献中一词多义的专业术语的机器翻译方法
CN114330376A (zh) * 2021-11-15 2022-04-12 甲骨易(北京)语言科技股份有限公司 一种计算机辅助翻译系统及方法

Also Published As

Publication number Publication date
CN102831109B (zh) 2016-01-13

Similar Documents

Publication Publication Date Title
CN102831109B (zh) 一种基于智能匹配的机器翻译装置及其方法
CA2562366A1 (en) A system for multiligual machine translation from english to hindi and other indian languages using pseudo-interlingua and hybridized approach
CN108124477A (zh) 基于伪数据改进分词器以处理自然语言
CN102243626A (zh) 一种基于依存句法树的翻译规则抽取方法和翻译方法
CN101763344A (zh) 训练基于短语的翻译模型的方法、机器翻译方法及其装置
CN101667176A (zh) 基于短语的统计机器翻译方法和系统
CN104239290B (zh) 基于依存树的统计机器翻译方法及系统
CN109597895B (zh) 一种基于知识图谱的公文搜索方法
CN101770458A (zh) 基于实例短语的机器翻译方法
US20100228538A1 (en) Computational linguistic systems and methods
CN103473223A (zh) 一种基于句法树的规则抽取及翻译方法
KR101777421B1 (ko) 구문 분석 및 계층적 어구 모델 기반 기계 번역 시스템 및 방법
CN102929865A (zh) 一种用于中文和东盟各国语言互译的pda翻译系统
Muaz et al. Analysis and development of Urdu POS tagged corpus
CN103377188A (zh) 翻译库的构建方法及系统
Wang Chinese to English automatic patent machine translation at SIPO
CN104704487A (zh) 翻译处理装置及程序
Vandeghinste et al. Parse and corpus-based machine translation
CN110532553A (zh) 一种水利空间关系词识别与提取的方法
KR101740330B1 (ko) 단어 공기 정보에 기반한 다국어 형태소 분석 오류 정정 장치 및 방법
CN102982063A (zh) 一种基于关系关键词扩展的元组精化的控制方法
KR101409298B1 (ko) 한국어 구문 인식을 위한 어휘의미패턴 재구성 방법
JP4588657B2 (ja) 翻訳装置
Tambouratzis et al. Accurate phrase alignment in a bilingual corpus for EBMT systems
KR100886688B1 (ko) 한국어 수량사 생성 방법 및 장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant