CN112463917A - 经由目标探针的翻译引擎建议 - Google Patents
经由目标探针的翻译引擎建议 Download PDFInfo
- Publication number
- CN112463917A CN112463917A CN202010847482.XA CN202010847482A CN112463917A CN 112463917 A CN112463917 A CN 112463917A CN 202010847482 A CN202010847482 A CN 202010847482A CN 112463917 A CN112463917 A CN 112463917A
- Authority
- CN
- China
- Prior art keywords
- computer
- probe
- translation engine
- translation
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 77
- 239000000523 sample Substances 0.000 title claims abstract description 67
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000004590 computer program Methods 0.000 claims abstract description 11
- 230000011218 segmentation Effects 0.000 claims abstract description 3
- 230000015654 memory Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 4
- 239000012634 fragment Substances 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 2
- 238000012512 characterization method Methods 0.000 claims 3
- 230000014616 translation Effects 0.000 description 64
- 230000006870 function Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 11
- 230000003287 optical effect Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3337—Translation of the query language, e.g. Chinese to English
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
一种翻译引擎建议的方法、系统和计算机程序产品,包括:识别用于输入文本的第三方翻译引擎的探针;根据识别的探针将输入文本的各部分分割成多个分段;根据分段将输入文本分成片段,使用相应的第三方翻译引擎对每个片段应用所述识别出的探针,以及通过组合每个片段来输出翻译。
Description
技术领域
本发明总体上涉及翻译引擎建议方法,并且更具体地但非限制性地涉及用于使用目标探针来确定在提供类似于给定的探针的输入时表现更好的翻译引擎的系统,方法和计算机程序产品。
背景技术
通常,需要将一些文本从一种语言翻译成另一种语言以进行交流。互联网上有各种翻译引擎。
常规翻译引擎的输出通常以翻译后失去意思以及翻译导致错误意思来特征化。因此,缺少用于比较翻译的基线。
此外,常规翻译技术仅基于总翻译的输出而不是在粒度级别(例如,单词、短语/子句和/或句子级别)来评估。因此,仅基于翻译的总输出而不是粒度来比较翻译。
例如,如图2-3所示,其中“A”是以英语的原始消息,“B”是使用第一翻译器的斯瓦希里语翻译,“C”是使用第二翻译器的斯瓦希里语翻译,对这两种翻译的分析表明,在某些短语中,第一个翻译器的表现要好于第二个翻译器(第一个翻译器将Sekou视为无生命的对象,而第二个翻译器则能够说出Sekou是一个人)。另一方面,第一翻译器看起来区分机构名称,其不必如图3所示进行翻译。
发明内容
鉴于本领域的问题,发明人考虑了一种新的改进技术,将探针插入翻译引擎中,以确定粒度级别的精确度(例如,探针是一个句子(或从句、短语或单词)其具有期望的翻译)以便使用每个句子的最佳翻译引擎来推荐一个翻译引擎组合来翻译一段文本(例如,多个句子)。
在一个示例性实施例中,本发明提供了一种计算机实现的翻译引擎建议方法,该方法包括计算机实现的翻译引擎建议方法,该方法包括识别用于输入文本的第三方翻译引擎的探针,根据所述识别的探针将所述输入文本的各部分分割成多个分段,根据所述分段将所述输入文本分成片段,使用相应的第三方翻译引擎对每个片段应用所述识别出的探针;以及通过组合每个片段来输出翻译。
一个或多个其他示例性实施例包括基于上述方法的计算机程序产品和系统。
下面描述本发明的其他细节和实施例,以便可以更好地理解对现有技术的当前贡献。然而,本发明在其应用中不限于说明书中阐述的或在附图中示出的这些细节、措辞、术语、图示和/或布置。而是,本发明除了所描述的实施例之外还能够具有实施例,并且能够以各种方式来实践和执行,并且不应被视为限制。
这样,本领域技术人员将理解,本公开所基于的概念可以容易地用作设计其他结构、方法和系统的基础,以实现本发明的几个目的。因此,重要的是,在不背离本发明的精神和范围的前提下,权利要求被认为包括这样的等同构造。
附图说明
通过以下参考附图对本发明示例性实施例的详细描述,将更好地理解本发明的各方面,其中:
图1示例性地示出了根据本发明实施例的翻译引擎建议方法100的高级流程图;
图2示例性地示出了使用第一翻译器引擎和第二翻译器引擎的示例翻译;
图3示例性地描绘了图2的文本的更好的翻译;
图4示例性地示出了根据本发明实施例的系统架构200;
图5示出了根据本发明实施例的云计算节点10;
图6描绘了根据本发明实施例的云计算环境50;以及
图7表示根据本发明一实施例的抽象模型层。
具体实施方式
现在将参考图1-7描述本发明,其中,相同的附图标记始终表示相同的部分。要强调的是,根据惯例,附图的各种特征不一定按比例绘制。相反,为了清楚起见,可以任意地扩大或缩小各种特征的尺寸。
通过介绍图1所示的示例,根据本发明的翻译引擎建议方法100的实施例可以包括用于确定给定探针的最佳翻译器并推荐翻译器组合来翻译文本输入的各种步骤。
通过介绍图5所示的示例,根据本发明的实施例的计算机系统12的一个或多个计算机可以包括存储器28,该存储器28具有存储在存储系统中的指令以执行图1的步骤。
尽管一个或多个实施例可以在云环境50(例如,图7)中实现,但是应当理解,本发明可以在云环境之外实现。
通常,一个探针(或多个探针)用于评估多种语义类型的翻译引擎的性能。当将新文本提供给要翻译的系统时,它会如孪生(Siamese)RNN网络预测的那样,为每个文本分段(segment)找到具有最高语义相似性的探针。探针是具有所需翻译的句子(或从句或短语,或者最细粒度的单词)。
通常参考图1至图4,在步骤101中,识别输入文本的当前语言和用户期望的翻译语言。在步骤102中,基于当前和期望的翻译语言从语料库中获取相关的探针。人类专家参与开发和验证探针库。探针是从一种语言到另一种语言的单词、句子中的一组单词和/或句子的已知“准确”翻译。通过在所有可用的机器翻译服务中运行探针,对探针进行培训,并根据人工探针翻译计算输出评分。探针和基于上述评分的机器翻译服务的有序列表存储在探针库中。
在步骤103中,输入文本通过解析器,解析器根据所获取的探针来识别和分割不同的部分。即,步骤103将输入文本分解成块(以及与该块匹配的最接近的探针)。解析器依赖于探针对文本的各个部分之间的相似性的评分。输出是分为几个分段的文本,每个分段都有一个探针注释。换句话说,用于输入文本的第三方翻译引擎的探针由文本的不同分段识别(例如,每个分段的探针和翻译引擎组合(多个探针和翻译引擎组合))。本发明可以访问第三方翻译引擎应用程序编程接口(API),包括Microsoft TranslatorTM,GoogleTranslateTM,WorldLingoTM,DeepLTM等。
在步骤104中,根据步骤103的分段分割输入文本(例如,将文本的不同部分匹配到分段),并且将每个片段(fragment)应用于带注释探针的最知名的机器翻译服务。“带注释探针的最著名的机器翻译器”是通过使用探针随时间来学习的。例如,对一个分段使用多个探针,然后验证最佳探针。对于多个句子,可以使用多个翻译引擎。并且,通过注释,本发明使用匹配探针对要翻译的文本(例如,分段)的不同短语进行注释,并且将性能更好的翻译引擎应用于这些单独注释的短语中的每一个。
在步骤105中,翻译的分段通过长短时记忆(LSTM)短语重建引擎,该引擎输出翻译文本。也就是说,将每个分段的最佳翻译组合在一起,以使用探测在多个翻译引擎中输出最佳翻译(例如,使用多个引擎翻译分段,这些引擎可能会在输入文本的不同部分表现出色)。以这种方式,用户可以通过组合跨多个引擎的翻译API来获得最佳翻译(即,当向给定探针提供类似的输入时确定性能更好的翻译引擎)。
在一个实施例中,在步骤105中,每个探针的输入文本在被翻译成最终输出语言之前被翻译成中间语言。因此,本发明通过在翻译之间包括中间语言来学习探针的准确性(例如,当从法语翻译成斯瓦希里语时,可以避免直接翻译(法语到斯瓦希里语),而是添加英语作为中间语言(法语到英语到斯瓦希里语),等等)。
参考图4,本发明通过将输入训练文本标记成句子(或短语、子句或单词),这些句子(或短语、子句或单词)通过句子嵌入映射到向量空间以处理输入训练文本,来学习如何将句子分割成分段,并训练模型以识别最好的探针。然后根据嵌入情况对句子进行聚类。识别聚类中心的句子(即质心)并将其充当聚类标签。人类专家把位于质心的句子翻译成目标语言。然后将质心发送到不同的翻译引擎,并将翻译与人类专家的翻译进行比较。然后,使用双语评估替补(例如BLEU或ROGUE)等指标对翻译引擎进行评分。利用句子嵌入和翻译度量评分来训练一个递归神经网络(RNN)语义相似度模型,其用于将新句子映射到最佳翻译引擎。
也就是说,句子嵌入是通过对一些文本语料库中分段的句子的每个单词的Glove嵌入执行均值池来获得的。嵌入使用k均值聚类进行聚类,其中k被设置为评估系统所需的探针数量。每个聚类的质心被映射回其原始句子,k个句子集被称为探针。探针(主语言)被发送到翻译引擎,对于每一个探针以及我们获得的引擎对,通过与专家对应的翻译(以辅助语言)进行比较来获得评估分数(蓝色或失常)。专家还提供了一个基于语言语法基础的主观连贯性评分。然后专家将翻译后的探针(来自引擎)再次翻译回主语言,而且这些用于扩充语义相似性数据集(例如STS基准测试)。然后使用数据集训练基于RNN的孪生网络(Siamese network)(即,一种使用相同的权重同时在两个不同的输入向量上协同工作来计算可比较的输出向量的人工神经网络),以作为二元分类任务执行语义相似性匹配设置,其中句子对被评估为语义等价与否。当一个新的句子被提供给系统时,它会找到与孪生网络预测的相似度最高的探针。
值得注意的是,探针的创建可能需要人类专家根据他们对所考虑的语言对的经验生成探针列表。
另一种获取探针的技术是由人类专家根据他们对所考虑的语言对的经验生成一个探针列表。
专家还可以将聚类条件设置为基于探针类型/标记的列表。
如图4的底部所示,在探针翻译和短语重建中,将要翻译的输入文本解析为句子,并使用递归神经网络(RNN)模型将每个句子与探针匹配,该模型使用该句子的嵌入以预测其所属的聚类。这提供了检查新句子与现有聚类探针的相似性。此外,每个聚类都通过Web应用程序编程接口(API)与翻译引擎关联,并且句子通过此翻译引擎获得翻译。然后将句子组合成一个段落并提供给用户。
注意的是,探针的创建可能涉及人类专家基于他们对所考虑的语言对的经验生成探针列表。
从而,本发明可以将文本分段成多个句子,识别每个句子的语义类型,并且基于最佳匹配探针,将针对这样的对应探针的先前确定的最佳翻译引擎分配给每个句子,同时确保来自所有分配的引擎的翻译的组合是整个文本的语义和句法精确翻译。
在一个实施例中,作为基于传记语料库的探针的示例,在对语料库的句子嵌入进行聚类之后,以下句子被识别为聚类的质心:
“Osebe has spent time learning and teaching at Clemson’s university.”
该句子用作探针,并发送给第一翻译器和第二翻译器。如图3所示,第二翻译器的评估低于第一翻译器。
对于要翻译的新句子(例如“Victor has spent his time learning atCarnegie Mellon’s University”),发明系统会选择“第一翻译器”作为首选翻译器。
使用云计算环境的示例性方面
尽管本具体实施方式包括关于在云计算环境中的本发明的示例性实施例,但应当理解本文记载的教导的实施方式不限于云计算环境,而是能够结合现在已知或以后开发的任何其它类型的计算环境而实现。
云计算是一种服务交付模式,用于对共享的可配置计算资源池进行方便、按需的网络访问。可配置计算资源是能够以最小的管理成本或与服务提供者进行最少的交互就能快速部署和释放的资源,例如可以是网络、网络带宽、服务器、处理、内存、存储、应用、虚拟机和服务。这种云模式可以包括至少五个特征、至少三个服务模型和至少四个部署模型。
特征如下:
按需自助式服务:云的消费者在无需与服务提供者进行人为交互的情况下能够单方面自动地按需部署诸如服务器时间和网络存储等的计算能力。
广泛的网络接入:计算能力可以通过标准机制在网络上获取,这种标准机制促进了通过不同种类的瘦客户机平台或厚客户机平台(例如移动电话、膝上型电脑、个人数字助理PDA)对云的使用。
资源池:提供者的计算资源被归入资源池并通过多租户(multi-tenant)模式服务于多重消费者,其中按需将不同的实体资源和虚拟资源动态地分配和再分配。一般情况下,消费者不能控制或甚至并不知晓所提供的资源的确切位置,但可以在较高抽象程度上指定位置(例如国家、州或数据中心),因此具有位置无关性。
迅速弹性:能够迅速、有弹性地(有时是自动地)部署计算能力,以实现快速扩展,并且能迅速释放来快速缩小。在消费者看来,用于部署的可用计算能力往往显得是无限的,并能在任意时候都能获取任意数量的计算能力。
可测量的服务:云系统通过利用适于服务类型(例如存储、处理、带宽和活跃用户帐号)的某种抽象程度的计量能力,自动地控制和优化资源效用。可以监测、控制和报告资源使用情况,为服务提供者和消费者双方提供透明度。
服务模型如下:
软件即服务(SaaS):向消费者提供的能力是使用提供者在云基础架构上运行的应用。可以通过诸如网络浏览器的瘦客户机接口(例如基于网络的电子邮件)从各种客户机电路访问应用。除了有限的特定于用户的应用配置设置外,消费者既不管理也不控制包括网络、服务器、操作系统、存储、乃至单个应用能力等的底层云基础架构。
平台即服务(PaaS):向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用,这些应用利用提供者支持的程序设计语言和工具创建。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础架构,但对其部署的应用具有控制权,对应用托管环境配置可能也具有控制权。
基础架构即服务(IaaS):向消费者提供的能力是消费者能够在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其他基础计算资源。消费者既不管理也不控制底层的云基础架构,但是对操作系统、存储和其部署的应用具有控制权,对选择的网络组件(例如主机防火墙)可能具有有限的控制权。
部署模型如下:
私有云:云基础架构单独为某个组织运行。云基础架构可以由该组织或第三方管理并且可以存在于该组织内部或外部。
共同体云:云基础架构被若干组织共享并支持有共同利害关系(例如任务使命、安全要求、政策和合规考虑)的特定共同体。共同体云可以由共同体内的多个组织或第三方管理并且可以存在于该共同体内部或外部。
公共云:云基础架构向公众或大型产业群提供并由出售云服务的组织拥有。
混合云:云基础架构由两个或更多部署模型的云(私有云、共同体云或公共云)组成,这些云依然是独特的实体,但是通过使数据和应用能够移植的标准化技术或私有技术(例如用于云之间的负载平衡的云突发流量分担技术)绑定在一起。
云计算环境是面向服务的,特点集中在无状态性、低耦合性、模块性和语意的互操作性。云计算的核心是包含互连节点网络的基础架构。
现在参考图5,其中显示了云计算节点的一个例子。图1显示的云计算节点10仅仅是适合的云计算节点的一个示例,不应对本发明实施例的功能和使用范围带来任何限制。总之,云计算节点10能够被用来实现和/或执行本文以上所述的任何功能。
尽管云计算节点10被描述为计算机系统/服务器12,其可被理解为可与众多其它通用或专用计算系统环境或配置一起操作。众所周知,适于与计算机系统/服务器12一起操作的计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上电路、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任意系统或电路的分布式云计算技术环境,等等。
计算机系统/服务器12可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括执行特定的任务或者实现特定的抽象数据类型的例程、程序、目标程序、组件、逻辑、数据结构等。计算机系统/服务器12可以在通过通信网络链接的远程处理电路执行任务的分布式云计算环境中实施。在分布式云计算环境中,程序模块可以位于包括存储电路的本地或远程计算系统存储介质上。
如图1所示,现在参考图5,云计算节点10中的计算机系统/服务器12以通用计算电路的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是能够被计算机系统/服务器12访问的任意可获得的介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图1未显示,通常称为“硬盘驱动器”)。尽管图1中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个计算机程序产品,该程序产品存储一组和多个程序模块,这些程序模块包括被配置以执行本发明的一个或者多个特征的计算机可读之令。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能适用于网络环境的实现。在一些实施例中,程序模块42适用于通常执行本发明的一个或者多个功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向电路、其他外围设备,诸如显示器24等)以及一个或者多个促进与计算机系统/服务器12交互的组件通信。这种通信可以通过输入/输出(I/O)接口22或者能使计算机系统/服务器12与一个或者多个其他计算电路通信的任何电路(例如,网卡,调制解调器等)进行。例如,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,其它硬件和/或软件模块可以与计算机系统/服务器12一起操作,包括但不限于:微代码、电路驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
现在参考图6,其中显示了示例性的云计算环境50。如图所示,云计算环境50包括云计算消费者使用的本地计算电路可以与其相通信的一个或者多个云计算节点10,本地计算设备例如可以是个人数字助理(PDA)或移动电话54A,台式电脑54B、笔记本电脑54C和/或汽车计算机系统54N。云计算节点10之间可以相互通信。可以在包括但不限于如上所述的私有云、共同体云、公共云或混合云或者它们的组合的一个或者多个网络中将云计算节点10进行物理或虚拟分组(图中未显示)。这样,云的消费者无需在本地计算电路上维护资源就能请求云计算环境50提供的基础架构即服务(IaaS)、平台即服务(PaaS)和/或软件即服务(SaaS)。应当理解,图6显示的各类计算电路54A-N仅仅是示意性的,云计算节点10以及云计算环境50可以与任意类型网络上和/或网络可寻址连接的任意类型的计算电路(例如使用网络浏览器)通信。
现在参考图7,其中显示了云计算环境50(图6)提供的示例性一组功能抽象层。首先应当理解,图7所示的组件、层以及功能都仅仅是示意性的,本发明的实施例不限于此。如图所示,提供下列层和对应功能:
硬件和软件层60包括硬件和软件组件。硬件组件的例子包括:主机61;基于RISC(精简指令集计算机)体系结构的服务器62;服务器63;刀片服务器64;存储电路65;网络和网络组件66。软件组件的例子包括:网络应用服务器软件67以及数据库软件68。
虚拟层70提供一个抽象层,该层可以提供下列虚拟实体的例子:虚拟服务器71、虚拟存储72、虚拟网络73(包括虚拟私有网络)、虚拟应用和操作系统74,以及虚拟客户端75。
在一个示例中,管理层80可以提供下述功能:资源供应功能81:提供用于在云计算环境中执行任务的计算资源和其它资源的动态获取;计量和定价功能82:在云计算环境内对资源的使用进行成本跟踪,并为此提供帐单和发票。在一个例子中,该资源可以包括应用软件许可。安全功能:为云的消费者和任务提供身份认证,为数据和其它资源提供保护。用户门户功能83:为消费者和系统管理员提供对云计算环境的访问。服务水平管理功能84:提供云计算资源的分配和管理,以满足必需的服务水平。服务水平协议(SLA)计划和履行功能85:为根据SLA预测的对云计算资源未来需求提供预先安排和供应。
工作负载层90提供云计算环境可能实现的功能的示例。在该层中,可提供的工作负载或功能的示例包括:地图绘制与导航91;软件开发及生命周期管理92;虚拟教室的教学提供93;数据分析处理94;交易处理95;以及根据本发明的翻译引擎建议方法100。
在任何可能的技术细节结合层面,本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
此外,申请人的意图是涵盖所有权利要求要素的等同形式,并且对本申请的任何权利要求的任何修改均不应被解释为对经修改的权利要求的任何要素或特征的等同形式的任何利益或权利的放弃。
Claims (10)
1.一种计算机实现的翻译引擎建议方法,该方法包括:
识别用于输入文本的第三方翻译引擎的探针;
根据所述识别的探针将所述输入文本的各部分分割成多个分段;
根据所述分段将所述输入文本分成片段;
使用相应的第三方翻译引擎对每个片段应用所述识别出的探针;以及
通过组合每个片段来输出翻译。
2.如权利要求1所述的方法,其中所述识别识别多个探针,并且
其中,通过将输入训练文本标记成使用句子嵌入映射到向量空间的句子以处理所述输入训练文本,来学习用于分割所述输入文本的分段并训练模型以识别探针的过程。
3.如权利要求2所述的方法,其中所述句子基于所述句子嵌入进行聚类,并且其中,位于聚类中心的句子被识别并被指定为一个聚类标签。
4.如权利要求3所述的方法,还包括查询人类专家以将质心处的句子翻译成目标语言。
5.如权利要求4所述的方法,其中所述使用相应的第三方翻译引擎对每个片段应用所识别的探针与人类专家翻译进行比较。
6.如权利要求5所述的方法,其中第三方翻译引擎基于比较结果进行评分,并且
其中,所述应用为每个分段应用评分最高的第三方翻译引擎。
7.如权利要求1所述的方法,其体现在云计算环境中。
8.一种用于基于元数据的特性化的计算机程序产品,该计算机程序产品包括计算机可读存储介质,该存储介质其中具有包含的程序指令,计算机可执行该程序指令以使该计算机执行权利要求1-7之一所述的方法。
9.一种基于元数据的表征系统,该系统包括:
处理器;以及
存储器,该存储器存储指令以使处理器执行权利要求1-7之一所述的方法。
10.一种基于元数据的表征系统,该系统包括用于执行权利要求1-7之一所述的方法的各个步骤的模块。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/564,370 US11328132B2 (en) | 2019-09-09 | 2019-09-09 | Translation engine suggestion via targeted probes |
US16/564,370 | 2019-09-09 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112463917A true CN112463917A (zh) | 2021-03-09 |
Family
ID=74833663
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010847482.XA Pending CN112463917A (zh) | 2019-09-09 | 2020-08-21 | 经由目标探针的翻译引擎建议 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11328132B2 (zh) |
CN (1) | CN112463917A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104011712A (zh) * | 2011-06-24 | 2014-08-27 | 谷歌公司 | 对跨语言查询建议的查询翻译进行评价 |
US20140324411A1 (en) * | 2013-04-24 | 2014-10-30 | International Business Machines Corporation | Translation validation |
CN104462072A (zh) * | 2014-11-21 | 2015-03-25 | 中国科学院自动化研究所 | 面向计算机辅助翻译的输入方法与装置 |
CN105468585A (zh) * | 2014-09-30 | 2016-04-06 | 株式会社东芝 | 机器翻译装置和机器翻译方法 |
CN109388809A (zh) * | 2017-08-10 | 2019-02-26 | 陈虎 | 一种用于建立单词翻译模型的循环式迁移学习方法 |
CN109558602A (zh) * | 2018-11-21 | 2019-04-02 | 传神语联网网络科技股份有限公司 | 翻译工具的分布式选择与融合 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3919771B2 (ja) * | 2003-09-09 | 2007-05-30 | 株式会社国際電気通信基礎技術研究所 | 機械翻訳システム、その制御装置、及びコンピュータプログラム |
CA2612404C (en) * | 2005-06-17 | 2014-05-27 | National Research Council Of Canada | Means and method for adapted language translation |
US8185376B2 (en) * | 2006-03-20 | 2012-05-22 | Microsoft Corporation | Identifying language origin of words |
US8326598B1 (en) | 2007-03-26 | 2012-12-04 | Google Inc. | Consensus translations from multiple machine translation systems |
GB2468278A (en) | 2009-03-02 | 2010-09-08 | Sdl Plc | Computer assisted natural language translation outputs selectable target text associated in bilingual corpus with input target text from partial translation |
US8990064B2 (en) * | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
US8594998B2 (en) * | 2010-07-30 | 2013-11-26 | Ben-Gurion University Of The Negev Research And Development Authority | Multilingual sentence extractor |
US9098488B2 (en) | 2011-04-03 | 2015-08-04 | Microsoft Technology Licensing, Llc | Translation of multilingual embedded phrases |
US9465797B2 (en) | 2012-02-23 | 2016-10-11 | Google Inc. | Translating text using a bridge language |
US9396184B2 (en) * | 2012-08-01 | 2016-07-19 | Xerox Corporation | Method for translating documents using crowdsourcing and lattice-based string alignment technique |
US10331793B2 (en) | 2012-10-17 | 2019-06-25 | Proz.Com | Method and apparatus to facilitate high-quality translation of texts by multiple translators |
US9928236B2 (en) | 2015-09-18 | 2018-03-27 | Mcafee, Llc | Systems and methods for multi-path language translation |
US10635727B2 (en) * | 2016-08-16 | 2020-04-28 | Ebay Inc. | Semantic forward search indexing of publication corpus |
GB2558062A (en) | 2016-11-18 | 2018-07-04 | Lionbridge Tech Inc | Collection strategies that facilitate arranging portions of documents into content collections |
KR102458244B1 (ko) * | 2017-11-23 | 2022-10-24 | 삼성전자주식회사 | 기계 번역 방법 및 장치 |
-
2019
- 2019-09-09 US US16/564,370 patent/US11328132B2/en active Active
-
2020
- 2020-08-21 CN CN202010847482.XA patent/CN112463917A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104011712A (zh) * | 2011-06-24 | 2014-08-27 | 谷歌公司 | 对跨语言查询建议的查询翻译进行评价 |
US20140324411A1 (en) * | 2013-04-24 | 2014-10-30 | International Business Machines Corporation | Translation validation |
CN105468585A (zh) * | 2014-09-30 | 2016-04-06 | 株式会社东芝 | 机器翻译装置和机器翻译方法 |
CN104462072A (zh) * | 2014-11-21 | 2015-03-25 | 中国科学院自动化研究所 | 面向计算机辅助翻译的输入方法与装置 |
CN109388809A (zh) * | 2017-08-10 | 2019-02-26 | 陈虎 | 一种用于建立单词翻译模型的循环式迁移学习方法 |
CN109558602A (zh) * | 2018-11-21 | 2019-04-02 | 传神语联网网络科技股份有限公司 | 翻译工具的分布式选择与融合 |
Also Published As
Publication number | Publication date |
---|---|
US20210073339A1 (en) | 2021-03-11 |
US11328132B2 (en) | 2022-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11269965B2 (en) | Extractive query-focused multi-document summarization | |
US11645513B2 (en) | Unary relation extraction using distant supervision | |
US11669680B2 (en) | Automated graph based information extraction | |
US10572597B2 (en) | Resolution of acronyms in question answering systems | |
US20180329885A1 (en) | Disambiguating concepts in natural language | |
US10216802B2 (en) | Presenting answers from concept-based representation of a topic oriented pipeline | |
US20230297855A1 (en) | Rule mining using virtual knowledge graph created from text | |
US20240211689A1 (en) | Extractive method for speaker identification in texts with self-training | |
US10380257B2 (en) | Generating answers from concept-based representation of a topic oriented pipeline | |
JP2022077022A (ja) | 機械翻訳システム、ChatOpsシステム、コンテキストアウェア言語機械識別のための方法、および機械翻訳システムのためのコンピュータプログラム製品(コンテキストアウェア機械言語識別) | |
US11520972B2 (en) | Future potential natural language processing annotations | |
US20200175111A1 (en) | Cognitive predictive assistance for word meanings | |
AU2021294112B2 (en) | Targeted partial re-enrichment of a corpus based on NLP model enhancements | |
US11663402B2 (en) | Text-to-vectorized representation transformation | |
US11481212B2 (en) | Automatic identification of reference data | |
US20220067051A1 (en) | Word embedding quality assessment through asymmetry | |
US20220043977A1 (en) | Determining user complaints from unstructured text | |
US10592538B2 (en) | Unstructured document migrator | |
US11328132B2 (en) | Translation engine suggestion via targeted probes | |
US11544466B2 (en) | Optimized document score system using sentence structure analysis function | |
US11755822B2 (en) | Promised natural language processing annotations | |
US20230409806A1 (en) | Permutation invariance for representing linearized tabular data | |
US20230410682A1 (en) | Task-specific language sets for multilingual learning | |
US20210056173A1 (en) | Extracting meaning representation from text | |
CN112052662A (zh) | 作为用于确定文档质量的指标的相关性 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |