CN102193914A - 计算机辅助翻译的方法及系统 - Google Patents

计算机辅助翻译的方法及系统 Download PDF

Info

Publication number
CN102193914A
CN102193914A CN 201110139182 CN201110139182A CN102193914A CN 102193914 A CN102193914 A CN 102193914A CN 201110139182 CN201110139182 CN 201110139182 CN 201110139182 A CN201110139182 A CN 201110139182A CN 102193914 A CN102193914 A CN 102193914A
Authority
CN
China
Prior art keywords
translation
phrase
candidate
user
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201110139182
Other languages
English (en)
Inventor
刘群
王洋
刘洋
骆卫华
吕雅娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN 201110139182 priority Critical patent/CN102193914A/zh
Publication of CN102193914A publication Critical patent/CN102193914A/zh
Priority to CN201210166934.3A priority patent/CN102693309B/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种计算机辅助翻译的方法及系统,在自动翻译结果的基础上,利用机器翻译解码器的中间结果、记忆库、词典等其他方面的信息来修改和完善机器自动翻译的结果,并为用户编辑和修改翻译结果提供了更灵活的交互方式。这样使得机器翻译和人工翻译得到了结合,提升用户体验,并最终提高了翻译的质量和效率。

Description

计算机辅助翻译的方法及系统
技术领域
本发明属于计算机辅助翻译领域,尤其涉及一种给机器翻译结果提供辅助翻译修改功能的方法。
背景技术
随着科学技术和互联网的快速发展,计算机和网络技术已经深入我们工作、生活的方方面面。在翻译领域,最令人激动的莫过于计算机辅助翻译技术CAT(Computer Aided Translation)。在计算机辅助翻译系统的设计中存在着两种不同思路:一种是机器翻译(Machine Translation),另一种是翻译记忆(Translation Memory)。
近些年机器翻译技术取得了巨大的进步,但是由于自然语言的复杂性,机器翻译的译文难以做到完满的程度。同时传统机器翻译的结果只提供给用户一个最佳译文,并没有提供帮助用户修改翻译结果的辅助信息,这使得对于外语水平较低的用户很难对译文做出修改,阻碍了机器翻译的普及应用。
而采用翻译记忆所设计的计算机辅助翻译系统在辅助信息推荐方面功能强大,但是其所面临的困境主要是该软件主要靠用户翻译历史的积累自动构建翻译记忆库,从而给出相似短语的提示信息。在没有大量翻译记忆的前提下,该软件就很难给用户提供有用的帮助信息,特别的是该软件对用户的英语水平要求过高,使得只有专业的翻译人员才适合使用。
利用机器翻译过程中的中间信息和其他辅助信息来对自动翻译的结果进行高效的修改和完善,提高翻译的质量和效率,已成为相关研究者的关注焦点。已有的方法基本上可以分为两类:一类是在给出机器自动翻译结果的基础之上,再给出若干短语的候选翻译,供用户选择;另一类是给出机器自动翻译结果仅供参考,同时给出源语言句子的相关候选短语,由用户点击构成目标语言句子。
例如,参考文献1(Philipp Koehn,Interactive assistance to human translators using statistical machine translation methods,Machine Translation Summit XII,2009)提出的Caitra系统,其采用机器自动翻译和人工翻译结合的方法,翻译系统使用的是摩西解码器(Moses),采用web的方式由用户来对翻译结果进行修改,并且用户每一次对翻译结果做出修改后,该系统都会重新给出候选短语。
但是,Caitra系统所提供给用户的候选短语表仅来源于统计机器翻译中的短语表,并没有引入更加丰富的候选短语来源,而且其所给出的用户可编辑的区域仅仅是一个文本框,用户对候选短语表的选取操作只是在文本框的末尾追加上新选取的单词。
另外,Google在线翻译在2010年开始也提供了辅助翻译功能,当用户提交翻译源文后,该系统在给出最佳翻译结果的基础上,对翻译结果的呈现也选择了短语的形式,并且提供了目标短语的若干个候选,用户可以用鼠标点击选择修改翻译结果,这些候选翻译的信息方便了用户对翻译结果进行简单地修改,但是对于短语语序的调整还不太方便,并且如果用户对当前的短语划分不满意的话,系统也没有给出其他划分方法的提示。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种计算机辅助翻译的方法及系统,利用更丰富的辅助翻译信息(例如,机器翻译解码过程的中间结果、记忆库、词典等)来修改和完善机器自动翻译的结果,并为用户编辑和修改翻译结果提供更灵活的交互方式。
本发明的目的是通过以下技术方案实现的:
一方面,本发明提供了一种计算机辅助翻译的方法,包括:
步骤1,通过机器翻译对源语言文档,进行自动翻译并生成中间结果数据;
步骤2,利用机器翻译解码过程的中间结果,以及记忆库、词典等信息生成辅助翻译信息;
步骤3,用户借助辅助翻译信息,通过辅助翻译调整方法对自动翻译的结果进行修改,生成最终目标语言文档。
根据本发明实施例的计算机辅助翻译的方法,所述步骤1中包括以下步骤:
生成一个最佳候选译文,用于翻译结果的呈现;
生成多个候选短语并为每个候选短语生成多个候选译文;所述候选短语的候选译文具有概率并按照从大到小排序。
根据本发明实施例的计算机辅助翻译的方法,所述步骤2中包括以下步骤:
针对不同用户推荐和用户最为相关的候选信息;
根据用户的历史行为,动态调整候选信息的推荐内容。
根据本发明实施例的计算机辅助翻译的方法,所述步骤3中包括以下步骤:
自动翻译的结果以短语为单位分块显示;
所述辅助翻译调整方法包括以下操作:
对短语进行拖动改变其位置,所述拖动的操作包括拖动单一短语和拖动多个短语;
对短语块的内容进行编辑修改;
在任意的短语块后面添加新的短语;
删除不需要的短语;
通过选择源语言句子任意片段的候选短语,来改变翻译结果的短语组合方式;
对翻译结果修改结果提供预存和保存功能,其中预存和保存过的句子采用不同的颜色来标识不同编辑状态的句子。
根据本发明实施例的计算机辅助翻译的方法,其特征在于包括:
基于AC自动机来查询候选信息;
基于卡尔曼滤波来对候选信息进行排序。
又一个方面,本发明提供了一种计算机辅助翻译的系统,包括:
自动翻译模块,采用机器翻译对源语言文档进行自动翻译;
辅助翻译模块,用于查看和调整自动翻译的结果,所述调整包括对候选短语对齐关系的高亮显示、候选短语提示帮助、对短语的拖动、增加、删除和修改操作、对译文的查看、句子的选择、对翻译结果修改结果提供预存和保存操作;
候选短语生成模块,通过对候选短语的查询和排序为辅助翻译模块提供辅助翻译信息;
用户模型更新模块,其通过分析用户的历史行为记录来动态的改变用户模型的参数。
与现有技术相比,本发明的优点在于:在自动翻译结果的基础上,利用机器翻译解码器的中间结果、记忆库、词典等一些其他方面的信息并结合灵活的人机交互方式,来对自动翻译的结果进行提示下的修改和完善,这样使得机器翻译和人工翻译得到了结合,提升用户体验,并最终提高了翻译的质量和效率。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1为根据本发明一个实施例的计算机辅助翻译系统的结构示意图;
图2为根据本发明一个实施例的机器翻译流程图;
图3为根据本发明一个实施例的候选短语示意图;
图4为根据本发明一个实施例的字典树Trie示意图
图5为根据本发明一个实施例的字典树Trie的失败指针转移图;
图6为根据本发明一个实施例的候选短语与源文对齐高亮显示的效果示意图;
图7为根据本发明一个实施例的候选短语自动提示效果的示意图;
图8为根据本发明一个实施例的候选短语自动拆分效果的示意图;
图9和图10为为根据本发明一个实施例的候选短语拖动前后的效果示意图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
计算辅助翻译的效率和质量关键取决于辅助翻译信息的质量和人机交互方式。这是由于准确高质量的辅助翻译信息能够提高翻译的质量,同时也能减少翻译过程的编辑次数,而简单方便的人机交互方式能够大量减少翻译过程中的操作次数,从而加快翻译的速度,提高翻译效率。这两个方面相互结合可以最终提高整个辅助翻译系统的性能和质量。因此本发明提供了一种计算机辅助翻译系统,其将记忆库,机器翻译的中间结果、词典等信息融合在一起来对机器自动翻译结果进行修改和完善,同时给用户提供了更灵活的界面,更丰富的手段来调整翻译结果。
图1描述了根据本发明的一个实施例的计算机辅助翻译系统的结构示意图。该系统首先对源文件进行自动翻译,在自动翻译解码过程中,生成最佳译文以及解码的中间信息,给辅助翻译提供数据支持。然后,对自动翻译结果进行的辅助翻译。在自动翻译结果的基础上,用户通过解码过程中的中间信息,以及来自记忆库、词典等其他辅助翻译信息,在web界面上对翻译结果进行修改。在这一过程中,自动翻译的译文以短语形式呈现,用户可以在短语级别的译文基础上,对译文短语进行修改、增删和移动等操作,提高译文修改的效率。下面将对上述步骤进行更详细的介绍。
首先,将用户所提交的源语言文档由机器翻译进行自动翻译并将自动翻译的译文以短语的形式展现给用户。在本发明的实施例中的自动翻译方法,并不限定于某一特定的统计机器翻译方法,而是可以采用本领域普通技术人员所熟知的任何现有的机器翻译方法。在一个实施例中,所使用的机器翻译引擎是基于最大熵括号转录语法翻译系统(Maximum Entropy Based Bracketing Transduction Grammars,以下简称为MEBTG)。此模型在已取得巨大成功的基于短语的翻译模型之上引入形式句法信息,并加入调序模型,使最终的译文更为流畅,从而构造了一种兼具短语模型优点和支持远距离调序的性能更好的模型。其翻译流程如图2所示,从图2中可以看出,解码器需要的输入数据,除了源语言句子之外,还包括:
(1)短语表:机器翻译解码器中用到的短语表也被称为通用候选短语,其是在大规模双语平行语料库中统计得到的,代表了公共的翻译行为。相对于通用候选短语,用户候选短语则是和用户个人的翻译习惯相关的,可以包含用户的翻译历史,用户个人词典等等。二者统称为候选短语。
(2)语言模型:统计语言模型是描述语言内在规律的数学模型。
(3)最大熵重排序模型:重排序模型主要是解决机器翻译解码过程中,相邻两个连续片段在译文里的顺序问题。
接着生成候选信息,利用如机器翻译解码过程的中间结果,记忆库、词典等信息,针对不同用户推荐与用户最为相关的候选信息,以及自动学习用户的历史行为,动态调整候选信息的推荐内容,从而使用户可以通过选择合适的候选信息来修改机器自动翻译生产的译文。
在本发明的实施例中,所述的候选信息包括候选短语,候选短语不局限于某一特定的来源,而是可以有丰富的组合形式。图3为根据本发明实施例的候选短语的组成示意图。如图3所示,将候选短语分为如上文所述的通用候选短语和用户候选短语。用户候选短语的来源主要包含以下几个方面:用户TMX(Translation Memory eXchange)记忆库,其是一种厂商中立的、开放式XML标准,用于交换计算机辅助翻译(CAT)和本地化工具创建的翻译存储(TM)数据;用户个人词典,其包括普通词典和领域词典这两类,普通词典注重于通用词语的用户翻译习惯,领域词典则注重于专业领域词汇的正规翻译规则,用户可以在用户个人词典任意添加词条,这些词条将会出现在辅助翻译信息的候选短语列表当中;以及用户翻译历史。通常,候选短语的数量越多,质量越高,对用户的帮助就越大。但是随着系统语料的日益增长和用户历史行为的累计,候选短语的数量会快速的增长。
如何快速的查询和用户输入的源语言句子相关的所有候选短语,并将之推荐给用户是问题的关键。如果将所有的候选短语都看作是模式串,用户输入的源语言句子看作是待匹配的串,这样问题就抽象成为在待匹配串中查找所有出现的模式串,即字符串多模式匹配问题。目前通常的做法是枚举源语言句子中所有的子片段,对每一个子片段进行查询,判断是否存在于短语集合中,这样算法的时间复杂度比较高。在本发明的一个实施例中提出了基于AC自动机(Aho-Corasick automation)的候选短语查询模型,把字符串匹配的问题转化为状态的转移,在线性复杂度之内解决了候选短语的查询问题,大大提高了系统的效率。
在这个实施例中,基于AC自动机的候选短语查询主要分为三个步骤:字典树Trie的构造、状态转移的构造(构造失败指针)和模式匹配的过程。下面分别对这三个步骤进行阐释。
步骤1)字典树Trie的构造
Trie,又称单词查找树或键树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。
假如用户个人词典中有she,shr,he,say,her这五个单词,其所构成的Trie树如图4所示,则上述单词的匹配路径如表1所示:
表1
  单词   匹配路径
  say   root->s->a->y
  she   root->s->h->e
  shr   root->s->h->r
  he   root->h->e
  her   root->h->e->r
步骤2)状态转移的构造
AC自动机把字符串的匹配过程当作是状态转移的过程,其中最为关键的部分就是失败指针的构造。失败指针的作用在于当前节点的所有子节点当中都无法与源语言句子的当前字符匹配的话,当前节点就要跳转到失败指针指向的节点继续匹配,这就避免了源语言句子的回溯匹配,大大提高了匹配的效率。同时,失败指针在输出匹配结果中也有非常重要的作用,如果当前节点与源语言句子的当前字符匹配,并且当前节点也是单词结束的标志,那么就要沿着当前节点的失败指针输出所有的有单词结束标志的后缀链。失败指针的构造算法如下:
Figure BDA0000064117430000071
Figure BDA0000064117430000081
上述失败指针构造算法首先设置根节点和第一层子节点的失败指针都指向根节点,然后对整棵树进行广度优先遍历,对于任意一个当前节点,如果通过某一条件使得当前节点和其某一子节点,以及当前节点的失败指针所指向的节点和其子节点都有相同的状态转移,那么当前节点的子节点的失败指针就指向当前节点的失败指针所指向的节点的子节点。最后把当前节点的所有子节点依次放入队列中。算法的整体复杂度和树的大小成线性关系。失败指针构造完成之后,每一个节点的失败节点对应关系如图5所示,其中1号节点的父节点是s,2号节点的父节点是root,并且s的失败指针指向root,并且s和root都有通过条件h分别向1号和2号节点的状态转移,所以1号节点的失败指针指向2号节点。同理,3号节点的失败指针指向4号节点。其他所有节点的失败指针都指向root节点。
步骤3)模式匹配的过程
在得到了带有失败指针的Trie树,就意味着AC自动机状态转移预处理完成,这时就可以对任意源语言句子进行多模式匹配,对于任意用户输入的源语言句子,都可以在线性时间内匹配出所有与源语言句子相关的候选短语,匹配的时间复杂度只和用户输入的源语言句子的长度成线性关系。基于AC自动机的候选短语匹配算法如下:
Figure BDA0000064117430000091
在上述候选短语匹配算法当中,依次从头到尾遍历用户输入的源语言句子中的每一个字符,从AC自动机的根节点开始匹配,如果当前节点匹配不成功,当前节点转向其失败指针所指向的节点继续匹配;如果当前节点匹配成功,就直接转向下一节点继续匹配。匹配的过程不断重复以上两个步骤,直到源语言句子结束为止。在匹配的过程中,如果遇到有单词结束标志的节点,该节点所对应的短语即为所要匹配的候选短语,此时不仅要输出该短语,还要输出以该短语结尾的所有后缀中出现的候选短语。候选短语的输出算法如下:
Figure BDA0000064117430000092
Figure BDA0000064117430000101
在上述候选短语输出算法中,首先判断当前节点是否为根节点,如果是根节点则输出候选短语集合;如果当前节点不为根节点,判断当前节点是否有候选短语结束标志,如果有则把当前节点到根节点路径上的候选短语加入到候选短语结果集合,否则当前节点跳转到其失败指针所指向的节点。重复以上两个步骤直到当前节点为根节点。
尽管通过上述方法查询到与用户相关的所有候选短语,当用户查看某一源语言短语的候选翻译的时候,这些候选短语呈现的顺序对用户的使用习惯有非常重要的联系。在通常情况下,人们往往会更加关注排列在顶部的短语,随着短语排列次序的下降,人们的关注度会逐渐的降低。例如各大主流搜索引擎的搜索推荐功能,以及搜索结果页面的顺序呈现,都是按照不同的排序策略使得把用户最想得到的结果放在最顶部。所以候选短语的顺序也应该按照用户的期望值由高到低依次排列。但是在本发明的上述实施例中采用的候选短语不是来自于唯一的来源,而是由通用候选短语和用户候选短语组合而成,并且在这两大集合里面又分为若干的子集合。集合之内的短语概率可以由统计得到,所以集合之内的短语概率有可比性,但是集合之间的短语概率没有直接的可比性,所以对与源语言句子相关的所有候选短语进行排序,就要解决不同集合的短语之间的排序问题。
在本发明的又一个实施例中提出一种基于卡尔曼滤波的候选短语排序方法,该方法通过用户翻译历史记录的分析,不断优化各候选短语集合的权重,从而提高候选短语推荐的精准度。如上所述,由于不同用户的翻译习惯各有差别,但是在长时间段内用户的翻译习惯又基本保持不变,因此为了区分不同短语集合对不同用户的重要性,使得不同短语集合之间的短语概率具有可比性,对用户候选短语集合赋予不同的权重值,在候选短语概率进行比较的时候,其短语概率乘以所属集合的权重,这样得到的短语概率便具有不同集合之间的可比性。不同的用户翻译习惯各有差别,体现在不同用户的短语集合权重值不同;相同用户的翻译习惯保持,体现在相同用户的短语集合权重值保持不变。因此对候选短语排序的问题可以用以下方式描述。
假设候选短语的来源有n个集合,它们分别包含m1,m2,...,mn个候选短语,pij为候选短语集合i中第j个短语的概率,w1,w2,...,wn分别为n个集合的权重,因此对和源语言句子相关的所有候选短语的排序可以抽象为对以下短语集合的排序:
{pij*wi|l<=i<=n,l<=j<=m}
上述集合中pij可以通过在候选短语集合i中统计短语j的频次得到,未知的是w1,w2,...,wn这n个集合的权重值,因此对候选短语排序的问题关键就在于对这n个集合权重值的预测,有了这些预测的权重值,在短语排序的时候就使得本不可比的短语集合之间的概率变得具有可比性,最终能够对候选短语进行排序,为系统前端提供候选信息的数据支持。
卡尔曼滤波的实质是由量测值重构系统的状态向量。它以“预测-实测-修正”的顺序递推,根据系统的量测值来消除随机干扰,再现系统的状态,其根据上一状态的估计值和当前状态的观测值推出当前状态的估计值的滤波方法,其预测方式可用如下方式表达。
S(t)=f(S(t-1),O(t))    (公式1)
在上式中S(t)表示当前状态的估计值,S(t-l)表示上一状态的估计值,O(t)表示当前状态的观测值,因此在本文面临的预测问题中,候选短语集合权重W向量即为所要预测的系统状态向量,如何定义某一时间段的观测值O(t),使得观测值能和系统状态W向量联系起来,是解决本预测问题的关键。
在连续时间段T内,通过统计用户编辑翻译结果时选择候选短语的来源可以得到用户的翻译习惯更倾向于选择哪一集合的候选短语,因此归一化统计的结果,就可以当作该时间段T内系统的观测值。这也符合用户的直观感觉,如果把用户选择最多的短语集合权重增加,那么在下一时间段T内,该集合短语在候选短语排序过程中的概率就会增加,那么在web辅助翻译系统UI界面中这些短语就会出现在比较靠上的位置,这就会相应降低下一时间段T内系统的平均惩罚分值。
解决本预测问题的另一个关键点在于判断当前状态的估计值S(t)更倾向于上一状态的估计值S(t-1)还是当前状态的观测值O(t)[36]。对于这种情况,我们可以设置两个归一化的权重值,用以区分两个状态的重要性,因此公式1可以转化为以下形式。
S(t)=ks*S(t-1)+ko*O(t)       (2)
在上式中ks代表上一状态估计值的权重,ko代表当前状态观测值的权重。基于卡尔曼滤波的候选短语排序的具体算法如下.
Figure BDA0000064117430000121
在上述算法中,c1,c2,…,cn分别为时间段T内n个候选短语集合被选中的次数。算法的执行过程是首先初始化w1,w2,…,wn,并对其归一化。权重的初始值并不重要,因为基于卡尔曼滤波的算法是个回归拟合的过程,系统的执行并不依赖于初始值,因此我们可以设置w1,w2,…,wn为相等的值。然后初始化ks,ko,根据经验值,在系统运行的初期,当前状态的观测值会比较重要,随着系统的长期运行,其历史估计值会比较重要,因此在系统运行的初期,可以稍微增大当前观测值的权重。
在提出了候选短语的排序算法之后,还要考虑这样一个问题。在系统运行的初期,由于用户添加的个人词典比较少,同时用户本身的翻译历史也比较少,系统提供的辅助翻译候选信息更多的来自于通用候选短语。这样在系统运行的初期,由于用户只能选择通用候选短语而导致通用候选短语集合的权重不断的增长,使得用户候选短语集合的权重被过度降低。在前端辅助翻译的界面中我们对于某一源短语只能提供有限数量的候选短语,以至于概率过低的候选短语只能被舍弃。综合前面两个原因就会导致通用候选短语集合的权重逐渐增大,用户候选短语集合的权重逐渐减小。
为了解决上述特殊情况,在本发明的一个实施例中,在传递给前端界面的候选短语列表最后,每次都加入权重最小集合的一个候选短语。这样在系统运行的初期,就能解决某一候选短语集合由于之前未出现过而导致集合权重过低,使得该短语集合的短语不能出现在前端界面中的问题。
下面通过一个简单的例子来进一步说明本发明实施例中所提出的基于卡尔曼滤波的候选短语排序方法。假设某用户的候选短语来源只有两个集合set1和set2,初始化w1=0.6,w2=0.4,ks=0.3,ko=0.7,在三个时间段T内其排序过程中集合权重的变化过程如表2所示。
表2
从表2中可以看出,由于观测值的权重设置的比较大,因此在三个时间段内候选短语集合权重随着每一轮观测值趋势的改变而改变。这个例子能比较好的说明本发明实施例中所提出的候选短语排序算法的预期效果。
最后,用户借助系统所推荐的辅助翻译信息对自动翻译的译文进行修改,从而生成最终目标语言文档。其中可以通过下列操作来对译文进行修改:
1)自动翻译的译文以短语为单位分块显示,用户可以对短语进行拖动改变位置,达到调整语序的目的,拖动的操作包括拖动单一短语和拖动多个短语。
2)用户可以对短语块的内容进行编辑修改。
3)用户可以在任意的短语块后面添加新的短语。
4)用户可以删除不需要的短语。
5)用户可以通过选择源语言句子任意片段的候选短语,来改变翻译结果的短语组合方式,生成更加合理的译文。为了提高用户体验,只有被选中的源语言句子片段的候选短语才会呈现。
6)对翻译结果修改结果提供预存和保存功能,其中预存和保存过的句子采用不同的颜色来标识,方便用户下次编辑时区分不同编辑状态的句子。
其中,当用户编辑某一译文短语时,需要快速定位到与之对应的源文短语。在本发明的一个实施例中,为了实现快速寻找短语之间对应关系的功能,预先保持所有短语对应关系在后台数据中,当用户对某一译文的短语进行修改操作时,系统通过查询后台数据中的短语对应关系,使得源语言句子中相应的短语自动高亮显示,这样用户就能快速定位到与之对应的源语言短语上,从而根据用户的翻译经验,更改更为合适的译文短语,从而达到快捷修改机器自动翻译译文的目的。短语对应关系的高亮显示效果如图6所示,其中当用户编辑译文中“seriously damaged”短语时,源语言句子中与之对应的“严重损坏”这一短语就会自动的高亮显示,这就使得用户能够快速定位到该译文短语是由哪个源语言短语翻译而来的,从而选择合适的译文进行修改。
另外,候选短语提示功能是辅助翻译系统中很重要的功能,该功能为对源语言的短语片段提供丰富的候选译文,供用户选择最终译文。目前谷歌在线翻译系统仅提供了译文短语的若干候选,这是在用户认可该短语划分的情况下的候选信息,如果用户对当前的短语划分不满意,该系统并没有提供更加丰富的源语言的候选翻译提示。
图7为本发明一个实施例中所采用的候选短语提示功能,其中用户可以方便的对译文短语进行重新划分,而且不仅仅针对自动翻译生成的译文短语提供候选,而是对源语言相关的任何连续短语片段进行候选翻译提示,其效果如图7所示。其中用户点击源语言短语“严重”的时候,web辅助翻译系统会给出与“严重”相关的所有源语言短语片段“被严重”,“严重”和“严重毁坏”。此时用户选择“严重”进行查看,辅助翻译系统将会给出候选翻译“serious”,“seriously”,“grave”,“a serious”和“the serious”。用户可以通过点击其中一个来替换机器自动翻译给出的译文结果。
通过候选短语提示功能,用户还可以选择不同的源语言短语片段来改变自动翻译生产译文的短语划分方式,从而生成新的翻译结果。例如源语言句子中的短语“严重损坏”被机器自动翻译为一个短语“serious damage”,如图7当用户选择“严重”的某一候选译文“seriously”之后,译文“serious damage”将会被自动拆分为“seriously”和“destroy”两个短语,其中“destroy”是“损坏”的第一个候选译文,拆分后的效果如图8所示。候选短语提示帮助功能通常和短语对齐高亮显示功能联合使用,当用户修改某一译文短语的时候,用户可以用鼠标选中该译文短语,与之相对应的源语言短语就会同步高亮显示,这时用户可以选择查看该源语言短语的相关候选译文,选择合适的译文来替换机器自动翻译的译文,从而达到快捷修改译文的作用。
在本发明的一个实施例中,在短语级别的译文基础上,提供短语的任意拖动功能,包括单一短语的拖动和连续短语的拖动,方便用户调整译文的顺序。特别的,在用户拖动调整短语顺序的同时,译文短语和源语言短语的对应关系不会改变,用户在编辑拖动改变位置后的该短语,与之相对应的源语言短语仍然会高亮显示,其拖动前后的效果如图9和10所示。其中,译文短语“was seriously damaged”在拖动之后和源短语“被严重毁坏”的对应关系没有改变,当鼠标放在该译文短语上的时候,与之对应的源短语仍然高亮显示。短语拖动的操作也非常简单,当用户把鼠标移到到某一译文短语上,该短语上方就会出现一个工具栏,最左边的图标是“拖动标志”,左右边的是“多选标志”。用户可以通过拖动“拖动标志”来改变当前短语的位置。同时用户还可以通过选择多个短语的“多选标志”来一次拖动多个短语进行位置的改变。在又一个实施例中,除了给出的短语对应关系高亮显示、候选短语提示帮助和短语拖动调整语序三大功能之外,用户还可以修改任意译文短语,也可以在译文的任意短语之间增加新的短语,也可以删除任意译文短语。
在本发明的又一个实施例中,提供了一种计算机辅助翻译的系统,包括:自动翻译模块,采用机器翻译对源语言文档进行自动翻译。辅助翻译模块,用于查看和调整自动翻译的结果,所述调整包括对候选短语对齐关系的高亮显示、候选短语提示帮助、对短语的拖动、增加、删除和修改操作、对译文的查看、句子的选择、对翻译结果修改结果提供预存和保存操作。候选短语生成模块,通过对候选短语的查询和排序为辅助翻译模块提供辅助翻译信息。用户模型更新模块,其通过分析用户的历史行为记录来动态的改变用户模型的参数。
为了说明本发明的效果,发明人还进行了如下的实验:
(1)基于AC自动机的候选短语查询模型方法的实验。
通过现有的候选短语表查询算法和基于AC自动机的候选短语查询方法的对比,来说明该方法的有效性,然后通过不同长度的源语言句子和不同规模的候选短语集合来测试该方法的效率,并且给出实验的结果分析。
为了考察本发明实施例中所提出的基于AC自动机的候选短语查询方法的性能,这里随机生成10,000个英文短语作为候选短语集合,其短语长度分别为3-13个字符,分别在不同的源语言句子长度下,将该方法和候选短语表查询算法作为对比,以验证该方法的有效性,源语言句子内容也随机生成。实验结果如表3所示。
表3
Figure BDA0000064117430000161
从以上实验结果可以看出,传统候选短语表查询算法随着源语言句子长度的增加,查询的时间快速增长,源语言句子长度在400个字符的时候查询时间就达到了4秒左右,这样的速度显然是机器翻译系统不能承受的。而本发明实施利所提出的基于AC自动机的候选短语查询算法就体现出了良好特性,源语言句子长度为800字符以内的查询时间均在2ms左右,充分体现了该查询算法的高效性。
上述实验将基于AC自动机的候选短语查询算法和候选短语表查询算法进行了对比。该方法需要面临的问题是随着系统使用时间的累计,用户将逐步添加越来越多的个人词典和翻译记忆库等,并且用户的翻译历史也会逐渐累计,因此还需要对该方法在不同数量的候选短语集合上进行实验分析,以验证该方法的有效性。该实验分别在1,000词、10,000词和100,000词的短语集合的基础上,对不同长度的源语言句子通过该方法进行了测试,实验结果如表4所示。
表4
Figure BDA0000064117430000162
从以上实验结果可以看出,源语言句子长度在800字符以内的情况下,查询时间均在3ms以下,这说明本发明实施例中所提出的基于AC自动机的候选短语查询算法在句子长度一定的前提下,其性能不随候选短语集合的增加而明显降低。在电脑内存空间足够大的情况下,该候选短语查询算法体现了查询的高效性。另外,以后随着系统运行时间的增加,候选短语的集合会逐渐扩大,解决构建模型时候内存不足的情况可以由双数组Trie来解决。
(2)候选短语排序方法效果实验
该实验主要考察在各候选短语集合权重初始值不合理的情况下,能否通过用户的翻译行为自动调整集合权重值到合理的范围,并且翻译过程中的平均惩罚分值逐步降低,以此来评价本发明实施例所提出的候选短语排序方法的效果。
该实验假定辅助翻译的候选短语集合仅有两个,一个为通用候选短语,另外一个是一部可信度非常高的词典,该词典作为用户候选短语。实验假设通用候选短语的集合权重w1为0.9,用户候选短语的集合权重w2为0.1,这一权重设置是明显不合理的,我们利用本章提出的候选短语排序算法试图自动调整短语集合的权重到达合理值。另外每一个源语言短语我们提供5个候选短语,并且在实验的过程中统计观测值时,我们仅统计同时出现两个集合候选短语的点击次数,这样能够更快速的调整集合权重。实验数据如表5所示。
表5
Figure BDA0000064117430000172
从表5可以看出,由于候选短语集合权重初始值设置不合理,本来可信度高的词典集合权重却只有0.1,因此在辅助翻译操作界面中该集合短语出现的位置比较靠下,而当该集合的短语出现的时候用户选择的概率很大,所以在时间段T1平均惩罚分值高达4.5。随着集合权重的更新,在时间段T2开始恢复合理,可信度高的词典集合权重w2高过通用候选短语集合权重w1,并且平均惩罚分值也开始降低到2.4。在时间段T3,词典集合权重继续增加,平均惩罚分值继续降低。由此可以看出,通过本发明实施例中所提出的候选短语排序方法,通过用户的行为分析,有效的权衡了多短语集合之间的候选短语排序的问题,从而逐步减低了用户翻译过程中的平均惩罚分值,提高了辅助翻译候选信息推荐的准确度。
在上述本发明的具体实施例中,提出了一种融合机器自动翻译和辅助翻译的新翻译模式,在机器自动翻译结果的基础上,配合辅助翻译的信息,给用户提供了短语对应关系高亮显示、候选短语提示帮助、短语拖动调整语序和短语的增加、删除、修改功能,使得用户可以方便快捷的修改自动翻译的译文。在候选短语查询和构建方面,采用基于AC自动机的候选短语查询模型,把字符串匹配的问题转化为状态的转移,在线性复杂度之内解决了候选短语的查询问题,大大提高了系统的效率;采用基于卡尔曼滤波的候选短语排序方法解决了不同集合的短语之间的排序问题,通过用户翻译历史记录的分析,不断优化各候选短语集合的权重,从而提高候选短语推荐的精准度。
虽然本发明已经通过优选实施例进行了描述,然而本发明并非局限于这里所描述的实施例,在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。

Claims (6)

1.一种计算机辅助翻译的方法,所述方法包括以下步骤:
步骤1,通过机器翻译对源语言文档,进行自动翻译并生成中间结果数据;
步骤2,利用机器翻译解码过程的中间结果,以及记忆库、词典等信息生成辅助翻译信息;
步骤3,用户借助辅助翻译信息,通过辅助翻译调整方法对自动翻译的结果进行修改,生成最终目标语言文档。
2.根据权利要求1所述的计算机辅助翻译的方法,所述步骤1中包括以下步骤:
生成一个最佳候选译文,用于翻译结果的呈现;
生成多个候选短语并为每个候选短语生成多个候选译文;所述候选短语的候选译文具有概率并按照从大到小排序。
3.根据权利要求1所述的计算机辅助翻译的方法,所述步骤2中包括以下步骤:
针对不同用户推荐和用户最为相关的候选信息;
根据用户的历史行为,动态调整候选信息的推荐内容。
4.根据权利要求1所述的计算机辅助翻译的方法,所述步骤3中包括以下步骤:
自动翻译的结果以短语为单位分块显示;
所述辅助翻译调整方法包括以下操作:
对短语进行拖动改变其位置,所述拖动的操作包括拖动单一短语和拖动多个短语;
对短语块的内容进行编辑修改;
在任意的短语块后面添加新的短语;
删除不需要的短语;
通过选择源语言句子任意片段的候选短语,来改变翻译结果的短语组合方式;
对翻译结果修改结果提供预存和保存功能,其中预存和保存过的句子采用不同的颜色来标识不同编辑状态的句子。
5.根据权利要求3所述的计算机辅助翻译的方法,其特征在于包括:
基于AC自动机来查询候选信息;
基于卡尔曼滤波来对候选信息进行排序。
6.一种计算机辅助翻译的系统,包括:
自动翻译模块,采用机器翻译对源语言文档进行自动翻译;
辅助翻译模块,用于查看和调整自动翻译的结果,所述调整包括对候选短语对齐关系的高亮显示、候选短语提示帮助、对短语的拖动、增加、删除和修改操作、对译文的查看、句子的选择、对翻译结果修改结果提供预存和保存操作;
候选短语生成模块,通过对候选短语的查询和排序为辅助翻译模块提供辅助翻译信息;
用户模型更新模块,其通过分析用户的历史行为记录来动态的改变用户模型的参数。
CN 201110139182 2011-05-26 2011-05-26 计算机辅助翻译的方法及系统 Pending CN102193914A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN 201110139182 CN102193914A (zh) 2011-05-26 2011-05-26 计算机辅助翻译的方法及系统
CN201210166934.3A CN102693309B (zh) 2011-05-26 2012-05-25 用于计算机辅助翻译的候选短语查询方法及辅助翻译系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110139182 CN102193914A (zh) 2011-05-26 2011-05-26 计算机辅助翻译的方法及系统

Publications (1)

Publication Number Publication Date
CN102193914A true CN102193914A (zh) 2011-09-21

Family

ID=44601997

Family Applications (2)

Application Number Title Priority Date Filing Date
CN 201110139182 Pending CN102193914A (zh) 2011-05-26 2011-05-26 计算机辅助翻译的方法及系统
CN201210166934.3A Expired - Fee Related CN102693309B (zh) 2011-05-26 2012-05-25 用于计算机辅助翻译的候选短语查询方法及辅助翻译系统

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201210166934.3A Expired - Fee Related CN102693309B (zh) 2011-05-26 2012-05-25 用于计算机辅助翻译的候选短语查询方法及辅助翻译系统

Country Status (1)

Country Link
CN (2) CN102193914A (zh)

Cited By (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968411A (zh) * 2012-10-24 2013-03-13 橙译中科信息技术(北京)有限公司 多语机器翻译智能辅助处理方法和系统
CN103235775A (zh) * 2013-04-25 2013-08-07 中国科学院自动化研究所 一种融合翻译记忆和短语翻译模型的统计机器翻译方法
CN103885939A (zh) * 2012-12-19 2014-06-25 新疆信息产业有限责任公司 维吾尔文-汉文双向翻译记忆系统的构造方法
CN104125548A (zh) * 2013-04-27 2014-10-29 中国移动通信集团公司 一种对通话语言进行翻译的方法、设备和系统
CN104714943A (zh) * 2015-03-26 2015-06-17 百度在线网络技术(北京)有限公司 翻译方法及系统
CN104899193A (zh) * 2015-06-15 2015-09-09 南京大学 一种计算机中限定翻译片段的交互式翻译方法
CN105335357A (zh) * 2015-11-18 2016-02-17 成都优译信息技术有限公司 翻译系统中语料推荐方法
CN106021197A (zh) * 2016-05-27 2016-10-12 成都优译信息技术有限公司 Dwg格式文件的翻译系统及翻译方法
CN106055529A (zh) * 2016-05-27 2016-10-26 成都优译信息技术有限公司 Dwg格式文件中待翻译文本数据的解析系统及其解析方法
CN106372065A (zh) * 2016-10-27 2017-02-01 新疆大学 一种多语言网站开发方法及系统
CN106383820A (zh) * 2016-02-01 2017-02-08 陈勇 别国文字阅读器
CN106528630A (zh) * 2016-10-10 2017-03-22 语联网(武汉)信息技术有限公司 一种对本地数据进行术语匹配的方法
CN106649286A (zh) * 2016-10-15 2017-05-10 语联网(武汉)信息技术有限公司 一种基于双数组字典树进行术语匹配的方法
CN106775338A (zh) * 2016-12-23 2017-05-31 语联网(武汉)信息技术有限公司 一种通过拖拽对齐语料的方法及系统
CN106775339A (zh) * 2016-12-26 2017-05-31 语联网(武汉)信息技术有限公司 一种通过拖拽点击调整语料位置的方法及系统
CN106775340A (zh) * 2016-12-27 2017-05-31 语联网(武汉)信息技术有限公司 一种在移动端进行语料对齐的方法及系统
CN106802753A (zh) * 2016-12-21 2017-06-06 语联网(武汉)信息技术有限公司 一种语料对齐方法及系统
CN106814950A (zh) * 2016-12-25 2017-06-09 语联网(武汉)信息技术有限公司 一种将原文和译文进行调整对齐的方法及系统
CN106940646A (zh) * 2017-03-17 2017-07-11 微梦创科网络科技(中国)有限公司 一种软件国际化处理方法、装置及系统
CN107122337A (zh) * 2016-02-24 2017-09-01 阿里巴巴集团控股有限公司 一种翻译文案生成方法及装置
CN107273106A (zh) * 2016-04-08 2017-10-20 北京三星通信技术研究有限公司 物体信息翻译、以及衍生信息获取方法和装置
US9916306B2 (en) 2012-10-19 2018-03-13 Sdl Inc. Statistical linguistic analysis of source content
CN107885737A (zh) * 2017-12-27 2018-04-06 传神语联网网络科技股份有限公司 一种人机互动翻译方法及系统
CN107885734A (zh) * 2017-11-13 2018-04-06 深圳市沃特沃德股份有限公司 语言翻译方法和装置
US9954794B2 (en) 2001-01-18 2018-04-24 Sdl Inc. Globalization management system and method therefor
CN108021569A (zh) * 2016-11-01 2018-05-11 中国移动通信有限公司研究院 Ac自动机的构建和中文多模式匹配方法及相关装置
US9984054B2 (en) 2011-08-24 2018-05-29 Sdl Inc. Web interface including the review and manipulation of a web document and utilizing permission based control
CN108256458A (zh) * 2018-01-04 2018-07-06 东北大学 一种针对聋人自然手语的双向实时翻译系统及方法
US10061749B2 (en) 2011-01-29 2018-08-28 Sdl Netherlands B.V. Systems and methods for contextual vocabularies and customer segmentation
CN108491400A (zh) * 2018-04-09 2018-09-04 江苏省舜禹信息技术有限公司 一种辅助翻译智能系统及方法
CN108519979A (zh) * 2018-02-28 2018-09-11 成都优译信息技术股份有限公司 一种cat系统中翻译记忆库和mt结合的方法及系统
US10140320B2 (en) 2011-02-28 2018-11-27 Sdl Inc. Systems, methods, and media for generating analytical data
US10198438B2 (en) 1999-09-17 2019-02-05 Sdl Inc. E-services translation utilizing machine translation and translation memory
CN109524068A (zh) * 2018-10-16 2019-03-26 东华大学 一种基于ac自动机的疾病症状提取方法
US10248650B2 (en) 2004-03-05 2019-04-02 Sdl Inc. In-context exact (ICE) matching
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
CN109710951A (zh) * 2018-12-27 2019-05-03 北京百度网讯科技有限公司 基于翻译历史的辅助翻译方法、装置、设备及存储介质
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US10452740B2 (en) 2012-09-14 2019-10-22 Sdl Netherlands B.V. External content libraries
CN110502746A (zh) * 2019-07-18 2019-11-26 北京捷通华声科技股份有限公司 一种在线域更新解码方法、装置、电子设备及存储介质
US10572928B2 (en) 2012-05-11 2020-02-25 Fredhopper B.V. Method and system for recommending products based on a ranking cocktail
US10580015B2 (en) 2011-02-25 2020-03-03 Sdl Netherlands B.V. Systems, methods, and media for executing and optimizing online marketing initiatives
US10614167B2 (en) 2015-10-30 2020-04-07 Sdl Plc Translation review workflow systems and methods
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US10657540B2 (en) 2011-01-29 2020-05-19 Sdl Netherlands B.V. Systems, methods, and media for web content management
CN111368035A (zh) * 2020-03-03 2020-07-03 新疆大学 一种基于神经网络的汉维-维汉机构名词典的挖掘系统
CN111414766A (zh) * 2018-12-18 2020-07-14 北京搜狗科技发展有限公司 一种翻译方法及装置
CN111507113A (zh) * 2020-03-18 2020-08-07 北京捷通华声科技股份有限公司 一种机器辅助人工翻译的方法和装置
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
CN111860000A (zh) * 2020-07-20 2020-10-30 北京字节跳动网络技术有限公司 文本翻译编辑方法、装置、电子设备及存储介质
CN113687883A (zh) * 2020-05-18 2021-11-23 阿里巴巴集团控股有限公司 数据展示方法、装置、电子设备及计算机可读存储介质
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
CN114091483A (zh) * 2021-10-27 2022-02-25 北京百度网讯科技有限公司 翻译处理方法、装置、电子设备及存储介质
CN114266260A (zh) * 2021-12-24 2022-04-01 金锐软件技术(杭州)有限公司 一种应用于软件研发的内嵌式及时翻译系统
CN114330311A (zh) * 2021-12-30 2022-04-12 安徽听见科技有限公司 一种翻译方法、装置、电子设备和计算机可读存储介质
US11308528B2 (en) 2012-09-14 2022-04-19 Sdl Netherlands B.V. Blueprinting of multimedia assets
US11386186B2 (en) 2012-09-14 2022-07-12 Sdl Netherlands B.V. External content library connector systems and methods

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279147B (zh) * 2015-09-29 2018-02-23 语联网(武汉)信息技术有限公司 一种译员稿件快速匹配方法
CN106066866A (zh) * 2016-05-26 2016-11-02 同方知网(北京)技术有限公司 一种英文文献关键短语自动抽取方法与系统
CN108959276A (zh) * 2018-07-23 2018-12-07 传神语联网网络科技股份有限公司 一种用于翻译的术语发现方法及其系统
CN109062909A (zh) * 2018-07-23 2018-12-21 传神语联网网络科技股份有限公司 一种可插拔组件
CN108984540A (zh) * 2018-07-23 2018-12-11 传神语联网网络科技股份有限公司 一种辅助翻译的方法及辅助翻译系统
CN109885180B (zh) * 2019-02-21 2022-12-06 北京百度网讯科技有限公司 纠错方法和装置、计算机可读介质
CN112035623B (zh) * 2020-09-11 2023-08-04 杭州海康威视数字技术股份有限公司 智能问答方法、装置、电子设备及存储介质
CN112988834B (zh) * 2021-02-07 2023-03-10 潍坊北大青鸟华光照排有限公司 一种字典短语的查询方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271451A (zh) * 2007-03-20 2008-09-24 株式会社东芝 计算机辅助翻译的方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3896341B2 (ja) * 2003-04-07 2007-03-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 翻訳システム、翻訳方法、及び、これらを実現するプログラムと記録媒体
CN101398815B (zh) * 2008-06-13 2011-02-16 中国科学院计算技术研究所 一种机器翻译方法
CN101425084A (zh) * 2008-11-20 2009-05-06 上海交通大学 基于有序二叉树的模式匹配方法
CN101707588B (zh) * 2009-09-25 2012-10-10 曙光信息产业(北京)有限公司 基于规则集的报文处理方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271451A (zh) * 2007-03-20 2008-09-24 株式会社东芝 计算机辅助翻译的方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《中国科技翻译》 20020531 许汉成,何淑琴 计算机辅助翻译软件WordFisher评介 第32页 1-6 第15卷, 第2期 *
《外语电化教学》 20041231 梁三云 机器翻译与计算机辅助翻译比较分析 第42-45页 1-6 , 第100期 *
《湖南医科大学学报(社会科学版)》 20100331 傅彦夫 翻译记忆理论及几款计算机辅助翻译软件评介 第107-108页 1-6 第12卷, 第2期 *
《福建电脑》 20060331 肖明 机器翻译系统中间件模型 第123页以及附图1 1-6 , 第3期 *

Cited By (89)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10216731B2 (en) 1999-09-17 2019-02-26 Sdl Inc. E-services translation utilizing machine translation and translation memory
US10198438B2 (en) 1999-09-17 2019-02-05 Sdl Inc. E-services translation utilizing machine translation and translation memory
US9954794B2 (en) 2001-01-18 2018-04-24 Sdl Inc. Globalization management system and method therefor
US10248650B2 (en) 2004-03-05 2019-04-02 Sdl Inc. In-context exact (ICE) matching
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US10984429B2 (en) 2010-03-09 2021-04-20 Sdl Inc. Systems and methods for translating textual content
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US10521492B2 (en) 2011-01-29 2019-12-31 Sdl Netherlands B.V. Systems and methods that utilize contextual vocabularies and customer segmentation to deliver web content
US11044949B2 (en) 2011-01-29 2021-06-29 Sdl Netherlands B.V. Systems and methods for dynamic delivery of web content
US11694215B2 (en) 2011-01-29 2023-07-04 Sdl Netherlands B.V. Systems and methods for managing web content
US10061749B2 (en) 2011-01-29 2018-08-28 Sdl Netherlands B.V. Systems and methods for contextual vocabularies and customer segmentation
US10657540B2 (en) 2011-01-29 2020-05-19 Sdl Netherlands B.V. Systems, methods, and media for web content management
US11301874B2 (en) 2011-01-29 2022-04-12 Sdl Netherlands B.V. Systems and methods for managing web content and facilitating data exchange
US10990644B2 (en) 2011-01-29 2021-04-27 Sdl Netherlands B.V. Systems and methods for contextual vocabularies and customer segmentation
US10580015B2 (en) 2011-02-25 2020-03-03 Sdl Netherlands B.V. Systems, methods, and media for executing and optimizing online marketing initiatives
US11366792B2 (en) 2011-02-28 2022-06-21 Sdl Inc. Systems, methods, and media for generating analytical data
US10140320B2 (en) 2011-02-28 2018-11-27 Sdl Inc. Systems, methods, and media for generating analytical data
US9984054B2 (en) 2011-08-24 2018-05-29 Sdl Inc. Web interface including the review and manipulation of a web document and utilizing permission based control
US11263390B2 (en) 2011-08-24 2022-03-01 Sdl Inc. Systems and methods for informational document review, display and validation
US10572928B2 (en) 2012-05-11 2020-02-25 Fredhopper B.V. Method and system for recommending products based on a ranking cocktail
US10402498B2 (en) 2012-05-25 2019-09-03 Sdl Inc. Method and system for automatic management of reputation of translators
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US11386186B2 (en) 2012-09-14 2022-07-12 Sdl Netherlands B.V. External content library connector systems and methods
US11308528B2 (en) 2012-09-14 2022-04-19 Sdl Netherlands B.V. Blueprinting of multimedia assets
US10452740B2 (en) 2012-09-14 2019-10-22 Sdl Netherlands B.V. External content libraries
US9916306B2 (en) 2012-10-19 2018-03-13 Sdl Inc. Statistical linguistic analysis of source content
CN102968411A (zh) * 2012-10-24 2013-03-13 橙译中科信息技术(北京)有限公司 多语机器翻译智能辅助处理方法和系统
CN102968411B (zh) * 2012-10-24 2015-12-16 橙译中科信息技术(北京)有限公司 多语机器翻译智能辅助处理方法和系统
CN103885939A (zh) * 2012-12-19 2014-06-25 新疆信息产业有限责任公司 维吾尔文-汉文双向翻译记忆系统的构造方法
CN103235775B (zh) * 2013-04-25 2016-06-29 中国科学院自动化研究所 一种融合翻译记忆和短语翻译模型的统计机器翻译方法
CN103235775A (zh) * 2013-04-25 2013-08-07 中国科学院自动化研究所 一种融合翻译记忆和短语翻译模型的统计机器翻译方法
CN104125548B (zh) * 2013-04-27 2017-12-22 中国移动通信集团公司 一种对通话语言进行翻译的方法、设备和系统
CN104125548A (zh) * 2013-04-27 2014-10-29 中国移动通信集团公司 一种对通话语言进行翻译的方法、设备和系统
CN104714943A (zh) * 2015-03-26 2015-06-17 百度在线网络技术(北京)有限公司 翻译方法及系统
CN104899193A (zh) * 2015-06-15 2015-09-09 南京大学 一种计算机中限定翻译片段的交互式翻译方法
CN104899193B (zh) * 2015-06-15 2017-10-17 南京大学 一种计算机中限定翻译片段的交互式翻译方法
US10614167B2 (en) 2015-10-30 2020-04-07 Sdl Plc Translation review workflow systems and methods
US11080493B2 (en) 2015-10-30 2021-08-03 Sdl Limited Translation review workflow systems and methods
CN105335357A (zh) * 2015-11-18 2016-02-17 成都优译信息技术有限公司 翻译系统中语料推荐方法
CN105335357B (zh) * 2015-11-18 2018-07-06 成都优译信息技术有限公司 翻译系统中语料推荐方法
CN106383820A (zh) * 2016-02-01 2017-02-08 陈勇 别国文字阅读器
CN107122337A (zh) * 2016-02-24 2017-09-01 阿里巴巴集团控股有限公司 一种翻译文案生成方法及装置
CN107273106A (zh) * 2016-04-08 2017-10-20 北京三星通信技术研究有限公司 物体信息翻译、以及衍生信息获取方法和装置
CN107273106B (zh) * 2016-04-08 2021-07-06 北京三星通信技术研究有限公司 物体信息翻译、以及衍生信息获取方法和装置
CN106021197B (zh) * 2016-05-27 2019-04-23 成都优译信息技术有限公司 Dwg格式文件的翻译系统及翻译方法
CN106021197A (zh) * 2016-05-27 2016-10-12 成都优译信息技术有限公司 Dwg格式文件的翻译系统及翻译方法
CN106055529A (zh) * 2016-05-27 2016-10-26 成都优译信息技术有限公司 Dwg格式文件中待翻译文本数据的解析系统及其解析方法
CN106055529B (zh) * 2016-05-27 2019-04-23 成都优译信息技术有限公司 Dwg格式文件中待翻译文本数据的解析系统及其解析方法
CN106528630B (zh) * 2016-10-10 2019-09-10 语联网(武汉)信息技术有限公司 一种对本地数据进行术语匹配的方法
CN106528630A (zh) * 2016-10-10 2017-03-22 语联网(武汉)信息技术有限公司 一种对本地数据进行术语匹配的方法
CN106649286B (zh) * 2016-10-15 2019-07-02 语联网(武汉)信息技术有限公司 一种基于双数组字典树进行术语匹配的方法
CN106649286A (zh) * 2016-10-15 2017-05-10 语联网(武汉)信息技术有限公司 一种基于双数组字典树进行术语匹配的方法
CN106372065A (zh) * 2016-10-27 2017-02-01 新疆大学 一种多语言网站开发方法及系统
CN106372065B (zh) * 2016-10-27 2020-07-21 新疆大学 一种多语言网站开发方法及系统
CN108021569A (zh) * 2016-11-01 2018-05-11 中国移动通信有限公司研究院 Ac自动机的构建和中文多模式匹配方法及相关装置
CN106802753A (zh) * 2016-12-21 2017-06-06 语联网(武汉)信息技术有限公司 一种语料对齐方法及系统
CN106775338A (zh) * 2016-12-23 2017-05-31 语联网(武汉)信息技术有限公司 一种通过拖拽对齐语料的方法及系统
CN106814950A (zh) * 2016-12-25 2017-06-09 语联网(武汉)信息技术有限公司 一种将原文和译文进行调整对齐的方法及系统
CN106775339A (zh) * 2016-12-26 2017-05-31 语联网(武汉)信息技术有限公司 一种通过拖拽点击调整语料位置的方法及系统
CN106775340A (zh) * 2016-12-27 2017-05-31 语联网(武汉)信息技术有限公司 一种在移动端进行语料对齐的方法及系统
CN106940646A (zh) * 2017-03-17 2017-07-11 微梦创科网络科技(中国)有限公司 一种软件国际化处理方法、装置及系统
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US11321540B2 (en) 2017-10-30 2022-05-03 Sdl Inc. Systems and methods of adaptive automated translation utilizing fine-grained alignment
CN107885734A (zh) * 2017-11-13 2018-04-06 深圳市沃特沃德股份有限公司 语言翻译方法和装置
CN107885734B (zh) * 2017-11-13 2021-07-20 深圳市沃特沃德股份有限公司 语言翻译方法和装置
CN107885737A (zh) * 2017-12-27 2018-04-06 传神语联网网络科技股份有限公司 一种人机互动翻译方法及系统
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US11475227B2 (en) 2017-12-27 2022-10-18 Sdl Inc. Intelligent routing services and systems
CN107885737B (zh) * 2017-12-27 2021-04-27 传神语联网网络科技股份有限公司 一种人机互动翻译方法及系统
CN108256458B (zh) * 2018-01-04 2020-08-04 东北大学 一种针对聋人自然手语的双向实时翻译系统及方法
CN108256458A (zh) * 2018-01-04 2018-07-06 东北大学 一种针对聋人自然手语的双向实时翻译系统及方法
CN108519979A (zh) * 2018-02-28 2018-09-11 成都优译信息技术股份有限公司 一种cat系统中翻译记忆库和mt结合的方法及系统
CN108491400A (zh) * 2018-04-09 2018-09-04 江苏省舜禹信息技术有限公司 一种辅助翻译智能系统及方法
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
CN109524068A (zh) * 2018-10-16 2019-03-26 东华大学 一种基于ac自动机的疾病症状提取方法
CN111414766B (zh) * 2018-12-18 2024-01-30 北京搜狗科技发展有限公司 一种翻译方法及装置
CN111414766A (zh) * 2018-12-18 2020-07-14 北京搜狗科技发展有限公司 一种翻译方法及装置
CN109710951A (zh) * 2018-12-27 2019-05-03 北京百度网讯科技有限公司 基于翻译历史的辅助翻译方法、装置、设备及存储介质
CN109710951B (zh) * 2018-12-27 2023-10-17 北京百度网讯科技有限公司 基于翻译历史的辅助翻译方法、装置、设备及存储介质
CN110502746A (zh) * 2019-07-18 2019-11-26 北京捷通华声科技股份有限公司 一种在线域更新解码方法、装置、电子设备及存储介质
CN111368035A (zh) * 2020-03-03 2020-07-03 新疆大学 一种基于神经网络的汉维-维汉机构名词典的挖掘系统
CN111507113A (zh) * 2020-03-18 2020-08-07 北京捷通华声科技股份有限公司 一种机器辅助人工翻译的方法和装置
CN113687883A (zh) * 2020-05-18 2021-11-23 阿里巴巴集团控股有限公司 数据展示方法、装置、电子设备及计算机可读存储介质
CN111860000A (zh) * 2020-07-20 2020-10-30 北京字节跳动网络技术有限公司 文本翻译编辑方法、装置、电子设备及存储介质
CN114091483B (zh) * 2021-10-27 2023-02-28 北京百度网讯科技有限公司 翻译处理方法、装置、电子设备及存储介质
CN114091483A (zh) * 2021-10-27 2022-02-25 北京百度网讯科技有限公司 翻译处理方法、装置、电子设备及存储介质
CN114266260B (zh) * 2021-12-24 2023-06-20 金锐软件技术(杭州)有限公司 一种应用于软件研发的内嵌式及时翻译系统
CN114266260A (zh) * 2021-12-24 2022-04-01 金锐软件技术(杭州)有限公司 一种应用于软件研发的内嵌式及时翻译系统
CN114330311A (zh) * 2021-12-30 2022-04-12 安徽听见科技有限公司 一种翻译方法、装置、电子设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN102693309A (zh) 2012-09-26
CN102693309B (zh) 2014-08-06

Similar Documents

Publication Publication Date Title
CN102193914A (zh) 计算机辅助翻译的方法及系统
CN103782291B (zh) 定制自然语言处理引擎
CN101630314B (zh) 一种基于领域知识的语义查询扩展方法
Mairesse et al. Stochastic language generation in dialogue using factored language models
CN100527125C (zh) 一种统计机器翻译中的在线翻译模型选择方法和系统
CN102768681B (zh) 一种用于搜索输入的推荐系统及方法
CN101183281B (zh) 一种输入法中候选词的相关词输入的方法及系统
KR100834549B1 (ko) 번역 시스템 및 번역 서비스 제공방법
CN109032375A (zh) 候选文本排序方法、装置、设备及存储介质
WO2015191652A1 (en) Modeling interestingness with deep neural networks
CN104252533A (zh) 搜索方法和搜索装置
WO2014120518A2 (en) Translating natural language descriptions to programs in a domain-specific language for spreadsheets
CN105759983A (zh) 电子设备的文本输入系统及文本输入方法
JP6529761B2 (ja) 話題提供システム、及び会話制御端末装置
CN107704102A (zh) 一种文本输入方法及装置
CN109255012B (zh) 机器阅读理解以及减少候选数据集规模的方法、装置
CN102023986A (zh) 参考外部知识构建文本分类器的方法和设备
CN102253930A (zh) 一种文本翻译的方法及装置
Dinarelli et al. Discriminative reranking for spoken language understanding
CN101901213A (zh) 一种基于实例动态泛化的共指消解方法
CN114238653B (zh) 一种编程教育知识图谱构建、补全与智能问答的方法
AU2018250372B2 (en) Method to construct content based on a content repository
JP2024518152A (ja) 機械学習によるスキルデータの生成
CN110516145A (zh) 一种基于句向量编码的信息搜索方法
CN108304424A (zh) 文本关键词提取方法及文本关键词提取装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20110921