CN112749316B - 翻译质量的确定方法、装置、存储介质和处理器 - Google Patents

翻译质量的确定方法、装置、存储介质和处理器 Download PDF

Info

Publication number
CN112749316B
CN112749316B CN201911038740.3A CN201911038740A CN112749316B CN 112749316 B CN112749316 B CN 112749316B CN 201911038740 A CN201911038740 A CN 201911038740A CN 112749316 B CN112749316 B CN 112749316B
Authority
CN
China
Prior art keywords
text
search result
result page
translation
characteristic information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911038740.3A
Other languages
English (en)
Other versions
CN112749316A (zh
Inventor
扈中凯
施杨斌
陆军
赵宇
骆卫华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201911038740.3A priority Critical patent/CN112749316B/zh
Publication of CN112749316A publication Critical patent/CN112749316A/zh
Application granted granted Critical
Publication of CN112749316B publication Critical patent/CN112749316B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种翻译质量的确定方法、装置、存储介质和处理器。其中,该方法包括:获取目标文本的原文和译文;将所述原文和译文作为输入搜索引擎的关键词进行检索,得到检索结果页;从所述检索结果页中提取所述原文和译文的特征信息;将所述特征信息输入至机器学习模型进行分析,得到用于评价翻译质量的评分指标;输出所述评分指标。本发明解决了翻译质量的检查效率低的技术问题。

Description

翻译质量的确定方法、装置、存储介质和处理器
技术领域
本发明涉及计算机领域,具体而言,涉及一种翻译质量的确定方法、装置、存储介质和处理器。
背景技术
为保证机器翻译结果的准确性,需要在机器翻译模型的基础上,提供翻译准确的多语言术语库作为校正模型结果的干预数据。构建准确的多语言术语库,需要经过单语术语挖掘(源语言端术语的发现),双语术语生成(目标语言端术语的生成)和双语术语质检(术语原文译文翻译质量的保证)三个环节。其中双语术语质检环节,需要对术语的原文和译文进行翻译质量检查。
传统的双语质检方法主要分为两类:人工判断和自动判断。
由于双语质检任务难度较大,目前双语质检主要采用人工判断,方式是通过将双语术语的候选原文译文提交给具备双语理解能力的人工译员,根据一定的标准进行翻译准确性检查。其缺点是,由于涉及人工参与环节,完成任务所需时间很长,成本很高;而且由于人的主观判断存在不一致的情况,实际产出的双语术语质量波动较大,存在很大的不确定性。
当前双语质检自动判断还停留在比较初期阶段,主要是利用计算机程序实现一些简单直观的规则,如原文和译文中的数字、标点是否不一致。其缺点是,只能进行比较简单的、特定的文本格式判断,无法利用大规模数据进行共现统计和语义相关性判断。
针对上述翻译质量的检查效率低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种翻译质量的确定方法、装置、存储介质和处理器,以至少解决翻译质量的检查效率低的技术问题。
根据本发明实施例的一个方面,提供了一种翻译质量的确定方法,包括:获取目标文本的原文和译文;将所述原文和译文作为输入搜索引擎的关键词进行检索,得到检索结果页;从所述检索结果页中提取所述原文和译文的特征信息;将所述特征信息输入至机器学习模型进行分析,得到用于评价翻译质量的评分指标;输出所述评分指标。
根据本发明实施例的另一方面,还提供了一种翻译质量的确定方法,其特征在于,包括:展示获取的目标文本的原文和译文;展示将所述原文和译文作为输入搜索引擎的关键词进行检索得到的检索结果页;展示从所述检索结果页中提取的所述原文和译文的特征信息;展示将所述特征信息输入至机器学习模型进行分析得到的用于评价翻译质量的评分指标。
根据本发明实施例的另一方面,还提供了一种翻译质量的确定装置,包括:获取模块,用于获取目标文本的原文和译文;检索模块,用于将所述原文和译文作为输入搜索引擎的关键词进行检索,得到检索结果页;提取模块,用于从所述检索结果页中提取所述原文和译文的特征信息;分析模块,用于将所述特征信息输入至机器学习模型进行分析,得到用于评价翻译质量的评分指标;输出模块,用于输出所述评分指标。
根据本发明实施例的另一方面,还提供了一种非易失性存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行所述翻译质量的确定方法。
根据本发明实施例的另一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述翻译质量的确定方法。
在本发明实施例中,在确定目标文本的翻译质量的过程中,可以获取目标文本的原文,以及目标文本的译文,并将目标文本的原文和译文作为关键词输入到搜索引擎,利用搜索引擎的检索能力得到检索结果页,再从检索结果页中提取目标文本的原文和译文的特征信息,然后将提取的特征信息输入到机器学习模型,由机器学习模型基于检索结果页中的特征信息对目标文本的原文和译文进行分析,确定用于评价目标文本翻译质量的评分指标,并输出该评分指标,根据输出的评分指标可以确定目标文本翻译质量,达到了对目标文本的翻译质量进行检查的目的,并且利用搜索引擎的检索能力,以及搜索引擎背后集成的大规模数据和语义判断能力,可以减少人工参与翻译质量检查的成本,从而实现了提高翻译质量的检查效率的技术效果,进而解决了翻译质量的检查效率低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了一种用于实现翻译质量的确定方法的计算机终端(或移动设备)的硬件结构框图;
图2是根据本发明实施例的一种翻译质量的确定方法的流程图一;
图3是根据本发明实施例的一种基于搜索引擎的双语术语质检方法的示意图;
图4是根据本发明实施例的一种翻译质量的确定方法的流程图二;
图5是根据本发明实施例的一种翻译质量的确定装置的示意图一;
图6是根据本发明实施例的一种翻译质量的确定装置的示意图二;
图7是根据本发明实施例的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
机器翻译:借助计算机程序将文字由一种自然语言翻译成另一种自然语言。
搜索引擎:利用计算机程序将互联网上的信息进行搜集、组织和处理后,为用户提供通过输入关键词,来检索相关信息的系统。
术语:语义完整的短语文本,在特定领域用来表示特定概念称谓的专门用语。
双语术语质检:利用人工或计算机程序,对术语原文和译文(如“无袖连衣裙Sleeveless dress”)进行翻译准确性判断。
实施例
根据本发明实施例,还提供了一种翻译质量的确定方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现翻译质量的确定方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的翻译质量的确定方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的翻译质量的确定方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输模块106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输模块106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输模块106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
图1示出的硬件结构框图,不仅可以作为上述计算机终端10(或移动设备)的示例性框图,还可以作为上述服务器的示例性框图,一种可选实施例中,图2以框图示出了使用上述图1所示的计算机终端10(或移动设备)作为【例如发送端、接收端等】一种实施例。如图2所示,计算机终端10(或移动设备)可以经由数据网络连接或电子连接到一个或多个服务器【例如安全服务器、资源服务器、游戏服务器等】。一种可选实施例中,上述计算机终端10(或移动设备)可以是【任意移动计算设备等】。数据网络连接可以是局域网连接、广域网连接、因特网连接,或其他类型的数据网络连接。计算机终端10(或移动设备)可以执行以连接到由一个服务器(例如安全服务器)或一组服务器执行的网络服务。网络服务器是基于网络的用户服务,诸如社交网络、云资源、电子邮件、在线支付或其他在线应用。
在上述运行环境下,本申请提供了如图2所示的翻译质量的确定方法。图2是根据本发明实施例的一种翻译质量的确定方法的流程图一,如图2所示,该方法包括如下步骤:
步骤S202,获取目标文本的原文和译文;
步骤S204,将原文和译文作为输入搜索引擎的关键词进行检索,得到检索结果页;
步骤S206,从检索结果页中提取原文和译文的特征信息;
步骤S208,将特征信息输入至机器学习模型进行分析,得到用于评价翻译质量的评分指标;
步骤S210,输出评分指标。
本发明上述实施例,在确定目标文本的翻译质量的过程中,可以获取目标文本的原文,以及目标文本的译文,并将目标文本的原文和译文作为关键词输入到搜索引擎,利用搜索引擎的检索能力得到检索结果页,再从检索结果页中提取目标文本的原文和译文的特征信息,然后将提取的特征信息输入到机器学习模型,由机器学习模型基于检索结果页中的特征信息对目标文本的原文和译文进行分析,确定用于评价目标文本翻译质量的评分指标,并输出该评分指标,根据输出的评分指标可以确定目标文本翻译质量,达到了对目标文本的翻译质量进行检查的目的,并且利用搜索引擎的检索能力,以及搜索引擎背后集成的大规模数据和语义判断能力,可以减少人工参与翻译质量检查的成本,从而实现了提高翻译质量的检查效率的技术效果,进而解决了翻译质量的检查效率低的技术问题。
在步骤S202提供的方案中,目标文本的原文和译文可以是采用两种不同的自然语言对目标文本的描述。
可选地,目标文本的译文可以是将目标文本的原文输入翻译设备后,由翻译设备输出的文本年文件。
可选地,目标文本的译文可以是可编辑文本,如Word格式、TXT格式、以及PDF格式之类的文本文件。
可选地,目标文本的译文可以为一个或多个,在目标文本的译文为一个的情况下,可以评价了该译文的翻译质量;在目标文本的译文为多个的情况下,可以从多个译文中选取翻译质量较高的译文。
在步骤S204提供的方案中,在将原文和译文作为输入搜索引擎的关键词进行检索之前,可以将目标文本的原文和译文按照自然语序,划分为词组或短句,然后原文和译文中将表示同一语义的词组或短句作为关键词,输入到搜索引擎。
可选地,在目标文本的译文为多个的情况下,可以分别将不同的译文与原文进行组合,得到基于不同译文的检索结果页。
在步骤S204提供的方案中,搜索引擎可以目标文本的原文和译文对应的自然语言进行选取。
在步骤S206提供的方案中,机器学习模型可以是预先建立的。
可选地,预先使用多组已标识出评分指标的特征信息进行机器学习训练,可以训练出用于对特征信息进行分析的机器学习模型。
作为一种可选的实施例,将原文和译文作为输入搜索引擎的关键词进行检索,得到检索结果页,包括:将译文作为关键词进行检索,得到第一类检索结果页;将原文和译文进行组合后得到的组合信息作为关键词输入搜索引擎,得到第二类检索结果页。
本发明上述实施例,在将原文和译文作为输入搜索引擎的关键词进行检索,可以将译文单独作为关键词,输入到搜索引擎中进行检索,得到第一检索结果页;还可以将原文和译文进行组合,将原文和译文组合后得到的组合信息作为关键词输入搜索引擎,得到第二检索结果页。
由于检索第一检索结果页和第二检索结果页的关键词不同,因此使用不同的关键词检索得到的第一检索结果页和第二检索结果页也就不同,进而在从检索结果页中提取原文和译文的特征信息的过程中,需要分别提取不同的检索结果页的特征信息。
作为一种可选的实施例,从检索结果页中提取原文和译文的特征信息,包括:从第一类检索结果页中提取与单语相关的特征;从第二类检索结果页中提取与双语相关的特征;将特征信息输入至机器学习模型进行分析,包括:将与单语相关的特征和与双语相关的特征共同输入至机器学习模型进行分析。
本发明上述实施例,由于第一类检索结果页是单独使用译文作为关键词而检索出的,因此从第一类检索结果页中提取的特征信息,即为与译文单语相关的特征。
本发明上述实施例,由于第二类检索结果页是使用原文和译文的组合信息作为关键词而检索出的,因此从第二类检索结果页中提取的特征信息,即为与原文和译文双语相关的特征。
在提取与译文单语相关的特征,以及与原文和译文双语相关的特征后,可以将单语相关的特征和与双语相关的特征共同输入至机器学习模型进行分析,由机器学习模型根据目标文本对应的与单语相关的特征和与双语相关的特征,确定用于评价目标文本翻译质量的评分指标。
作为一种可选的实施例,与单语相关的特征包括:在第一类检索结果页中提取的译文统计特征;与双语相关的特征包括:在第二类检索结果页中提取的原文统计特征和译文统计特征。
可选地,与单语相关的特征,即为从第一类检索结果页中提取的译文统计特征,可以包括:“检索结果数”、“译文在检索结果标题中出现次数”、“译文在检索结果简介中出现次数”等一系列单语特征属性。
可选地,与单语相关的特征,即为第二类检索结果页中提取的原文统计特征和译文统计特征,可以包括“检索结果数”、“原文在检索结果标题中出现次数”、“原文在检索结果简介中出现次数”、“译文在检索结果标题中出现次数”、“译文在检索结果简介中出现次数”等一系列双语特征属性。
作为一种可选的实施例,从检索结果页中提取原文和译文的特征信息,包括:从检索结果页中爬取检索结果数;并统计检索结果页面中原文和译文在检索结果页中的不同位置出现的次数,将检索结果数和次数作为特征信息。
本发明上述实施例,从检索结果页中提取原文和译文的特征信息,可以使用爬虫技术对检索结果页进行爬取,从检索结果页中爬取检索结果数,然后统计检索结果页面中原文和译文在检索结果页中的不同位置出现的次数,并将检索结果数和次数作为特征信息。
作为一种可选的实施例,将特征信息输入至机器学习模型进行分析,得到用于评价翻译质量的评分指标之后,方法还包括:比较评分指标和预设阈值;在评分指标大于预设阈值时,将评分指标对应的译文作为候选译文。
本发明上述实施例,在目标文本译文为多个的情况下,分别将多个译文对应的特征信息输入机器学习模型,可以得到用于评价各译文翻译质量的评分指标,然后从多个译文中筛选评分指标高于预设阈值的译文作为目标文本的候选译文,从而可以筛除与原文差距较大的译文,完成对译文的筛选工作。
本发明还提供了一种优选实施例,该优选实施例提供了一种基于搜索引擎的双语术语质检方法。
为了完成双语术语质检任务,本发明提出一种低成本、高效率的,利用搜索引擎检索能力对术语原文译文进行翻译准确度检查的方法。
本发明提供的技术方案,通过将双语术语的原文和译文生成检索关键词,利用搜索引擎的海量数据检索能力,在获取的检索结果页中提取一系列单语和双语特征,然后将提取的单语和双语特征输入翻译质检模型(即机器学习模型)进行翻译质检的打分(即得到用于评价翻译质量的评分指标)。
图3是根据本发明实施例的一种基于搜索引擎的双语术语质检方法的示意图,如图3所示,具体步骤如下:
步骤S1:在获得双语术语的原文和译文后,根据以下两种关键词检索策略,利用搜索引擎的检索能力获得检索结果。
检索策略一、利用目标语言端译文作为关键词进行检索,从获取的检索结果页中,提取“检索结果数”、“译文在检索结果标题中出现次数”、“译文在检索结果简介中出现次数”等一系列单语特征属性,作为衡量目标端译文合理性的特征。
检索策略二、利用“原文+译文”的方式,将源语言端原文和目标语言端译文组合,共同作为关键词进行检索,从获取的检索结果页中,提取“检索结果数”、“原文在检索结果标题中出现次数”、“原文在检索结果简介中出现次数”、“译文在检索结果标题中出现次数”、“译文在检索结果简介中出现次数”等一系列双语特征属性,作为衡量原文译文翻译正确性的特征。
步骤S2:将上述抽取的单语特征和双鱼特征输入到机器学习模型中,训练得到双语术语翻译质量打分模型。
步骤S2:对候选的双语术语原文和译文,利用上述模型进行打分。
需要说明的是,双语术语质检任务的解决方案,还需要人力参与进行人工打标判断 。
可选地,在进行人工判断之前,可以过滤掉分数较低的候选数据,仅挑选分数较高的候选数据进行人工打标判断,这样可以有效地降低人工成本,提高效率。
可选地,利用自动化的程序进行翻译质量判断的方案,还有结合IBM model的翻译质量打分算法,但该算法依赖大量双语平行语料进行训练,在覆盖领域和数据规模上难以达到基于搜索引擎方案能够利用的数据领域的体量。
本发明提供的技术方案,通过生成检索关键词,利用搜索引擎的检索能力,对双语术语进行自动化翻译质检,一方面可以极大的减少人工参与的成本,提升工作效率;另一方面,利用搜索引擎提取的特征,可以充分利用搜索引擎背后集成的大规模数据和语义判断能力,构建出机器学习模型可以实现复杂质检判断逻辑。
需要说明的是,融合搜索引擎特征的双语术语质检方案,在英俄、英西、英法、英印尼、英越南、英马来等6个语向的实验结果上,均有正向提升,平均上下文相关准确率达到66.6%。
在上述运行环境下,本申请提供了如图4所示的翻译质量的确定方法。图4是根据本发明实施例的一种翻译质量的确定方法的流程图二,如图4所示,该方法包括如下步骤:步骤S402,展示获取的目标文本的原文和译文;步骤S404,展示将原文和译文作为输入搜索引擎的关键词进行检索得到的检索结果页;步骤S406,展示从检索结果页中提取的原文和译文的特征信息;步骤S408,展示将特征信息输入至机器学习模型进行分析得到的用于评价翻译质量的评分指标。
在本发明实施例中,目标文本的翻译质量可以通过计算机终端,或智能手机等移动终端确定,并在确定目标文本的翻译质量时,可以使用终端的屏幕对翻译质量的确定过程进行展示,可以展示获取的目标文本的原文,以及目标文本的译文,并将目标文本的原文和译文作为关键词输入到搜索引擎,利用搜索引擎的检索能力得到检索结果页,并展示检索到的检索结果页,再从检索结果页中提取目标文本的原文和译文的特征信息,展示提取的特征信,然后将提取的特征信息输入到机器学习模型,由机器学习模型基于检索结果页中的特征信息对目标文本的原文和译文进行分析,确定用于评价目标文本翻译质量的评分指标,并展示该评分指标,可以根据展示的评分指标可以确定目标文本翻译质量,达到了对目标文本的翻译质量进行检查的目的,并且利用搜索引擎的检索能力,以及搜索引擎背后集成的大规模数据和语义判断能力,可以减少人工参与翻译质量检查的成本,从而实现了提高翻译质量的检查效率的技术效果,进而解决了翻译质量的检查效率低的技术问题。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例
根据本发明实施例,还提供了一种用于实施上述翻译质量的确定方法的翻译质量的确定装置,如图5所示,该装置包括:获取模块502,用于获取目标文本的原文和译文;检索模块504,用于将所述原文和译文作为输入搜索引擎的关键词进行检索,得到检索结果页;提取模块506,用于从所述检索结果页中提取所述原文和译文的特征信息;分析模块508,用于将所述特征信息输入至机器学习模型进行分析,得到用于评价翻译质量的评分指标;输出模块510,用于输出所述评分指标。
此处需要说明的是,上述获取模块502可以用于执行本申请实施例中的步骤S202,该实施例中的检索模块504可以用于执行本申请实施例中的步骤S204,该实施例中的提取模块506可以用于执行本申请实施例中的步骤S206,该实施例中的分析模块508可以用于执行本申请实施例中的步骤S208,该实施例中的输出模块510可以用于执行本申请实施例中的步骤S210。上述各单元与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述各单元作为装置的一部分可以运行在实施例一提供的计算机终端10中。
在本发明实施例中,在确定目标文本的翻译质量的过程中,可以获取目标文本的原文,以及目标文本的译文,并将目标文本的原文和译文作为关键词输入到搜索引擎,利用搜索引擎的检索能力得到检索结果页,再从检索结果页中提取目标文本的原文和译文的特征信息,然后将提取的特征信息输入到机器学习模型,由机器学习模型基于检索结果页中的特征信息对目标文本的原文和译文进行分析,确定用于评价目标文本翻译质量的评分指标,并输出该评分指标,根据输出的评分指标可以确定目标文本翻译质量,达到了对目标文本的翻译质量进行检查的目的,并且利用搜索引擎的检索能力,以及搜索引擎背后集成的大规模数据和语义判断能力,可以减少人工参与翻译质量检查的成本,从而实现了提高翻译质量的检查效率的技术效果,进而解决了翻译质量的检查效率低的技术问题。
作为一种可选的实施例,检索模块包括:检索模块,用于将译文作为关键词进行检索,得到第一类检索结果页;输入模块,用于将原文和译文进行组合后得到的组合信息作为关键词输入搜索引擎,得到第二类检索结果页。
作为一种可选的实施例,提取模块包括:从第一类检索结果页中提取与单语相关的特征;从第二类检索结果页中提取与双语相关的特征;分析模块包括:将与单语相关的特征和与双语相关的特征共同输入至机器学习模型进行分析。
作为一种可选的实施例,与单语相关的特征包括:在第一类检索结果页中提取的译文统计特征;与双语相关的特征包括:在第二类检索结果页中提取的原文统计特征和译文统计特征。
作为一种可选的实施例,提取模块包括:爬取模块,用于从检索结果页中爬取检索结果数;并统计检索结果页面中原文和译文在检索结果页中的不同位置出现的次数,将检索结果数和次数作为特征信息。
作为一种可选的实施例,该装置还包括:比较模块,用于在将特征信息输入至机器学习模型进行分析,得到用于评价翻译质量的评分指标之后,比较评分指标和预设阈值;确定模块,用于在评分指标大于预设阈值时,将评分指标对应的译文作为候选译文。
根据本发明实施例,还提供了一种用于实施上述翻译质量的确定方法的翻译质量的确定装置,如图6所示,该装置包括:第一展示模块602,用于展示获取的目标文本的原文和译文;第二展示模块604,用于展示将原文和译文作为输入搜索引擎的关键词进行检索得到的检索结果页;第三展示模块606,用于展示从检索结果页中提取的原文和译文的特征信息;第四展示模块608,用于展示将特征信息输入至机器学习模型进行分析得到的用于评价翻译质量的评分指标。
此处需要说明的是,上述第一展示模块602可以用于执行本申请实施例中的步骤S402,该实施例中的第二展示模块604可以用于执行本申请实施例中的步骤S404,该实施例中的第三展示模块606可以用于执行本申请实施例中的步骤S406,该实施例中的第四展示模块608可以用于执行本申请实施例中的步骤S408。上述各单元与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述单元作为装置的一部分可以运行在实施例一提供的计算机终端10中。
在本发明实施例中,目标文本的翻译质量可以通过计算机终端,或智能手机等移动终端确定,并在确定目标文本的翻译质量时,可以使用终端的屏幕对翻译质量的确定过程进行展示,可以展示获取的目标文本的原文,以及目标文本的译文,并将目标文本的原文和译文作为关键词输入到搜索引擎,利用搜索引擎的检索能力得到检索结果页,并展示检索到的检索结果页,再从检索结果页中提取目标文本的原文和译文的特征信息,展示提取的特征信,然后将提取的特征信息输入到机器学习模型,由机器学习模型基于检索结果页中的特征信息对目标文本的原文和译文进行分析,确定用于评价目标文本翻译质量的评分指标,并展示该评分指标,可以根据展示的评分指标可以确定目标文本翻译质量,达到了对目标文本的翻译质量进行检查的目的,并且利用搜索引擎的检索能力,以及搜索引擎背后集成的大规模数据和语义判断能力,可以减少人工参与翻译质量检查的成本,从而实现了提高翻译质量的检查效率的技术效果,进而解决了翻译质量的检查效率低的技术问题。
实施例
本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行应用程序的翻译质量的确定方法中以下步骤的程序代码:获取目标文本的原文和译文;将原文和译文作为输入搜索引擎的关键词进行检索,得到检索结果页;从检索结果页中提取原文和译文的特征信息;将特征信息输入至机器学习模型进行分析,得到用于评价翻译质量的评分指标;输出评分指标。
在本实施例中,上述计算机终端可以执行应用程序的翻译质量的确定方法中以下步骤的程序代码:处理器可以通过传输模块调用存储器存储的信息及应用程序,以执行下述步骤:展示获取的目标文本的原文和译文;展示将原文和译文作为输入搜索引擎的关键词进行检索得到的检索结果页;展示从检索结果页中提取的原文和译文的特征信息;展示将特征信息输入至机器学习模型进行分析得到的用于评价翻译质量的评分指标。
可选地,图7是根据本发明实施例的一种计算机终端的结构框图。如图7所示,该计算机终端10可以包括:一个或多个(图中仅示出一个)处理器、存储器、以及传输模块。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的翻译质量的确定方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的翻译质量的确定方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输模块调用存储器存储的信息及应用程序,以执行下述步骤:获取目标文本的原文和译文;将原文和译文作为输入搜索引擎的关键词进行检索,得到检索结果页;从检索结果页中提取原文和译文的特征信息;将特征信息输入至机器学习模型进行分析,得到用于评价翻译质量的评分指标;输出评分指标。
可选的,上述处理器还可以执行如下步骤的程序代码:将译文作为关键词进行检索,得到第一类检索结果页;将原文和译文进行组合后得到的组合信息作为关键词输入搜索引擎,得到第二类检索结果页。
可选的,上述处理器还可以执行如下步骤的程序代码:从第一类检索结果页中提取与单语相关的特征;从第二类检索结果页中提取与双语相关的特征;将与单语相关的特征和与双语相关的特征共同输入至机器学习模型进行分析。
可选的,与单语相关的特征包括:在第一类检索结果页中提取的译文统计特征;与双语相关的特征包括:在第二类检索结果页中提取的原文统计特征和译文统计特征。
可选的,上述处理器还可以执行如下步骤的程序代码:从检索结果页中爬取检索结果数;并统计检索结果页面中原文和译文在检索结果页中的不同位置出现的次数,将检索结果数和次数作为特征信息。
可选的,上述处理器还可以执行如下步骤的程序代码:在将特征信息输入至机器学习模型进行分析,得到用于评价翻译质量的评分指标之后,比较评分指标和预设阈值;在评分指标大于预设阈值时,将评分指标对应的译文作为候选译文。
处理器可以通过传输模块调用存储器存储的信息及应用程序,以执行下述步骤:展示获取的目标文本的原文和译文;展示将原文和译文作为输入搜索引擎的关键词进行检索得到的检索结果页;展示从检索结果页中提取的原文和译文的特征信息;展示将特征信息输入至机器学习模型进行分析得到的用于评价翻译质量的评分指标。
采用本发明实施例,提供了一种翻译质量的确定方案。在确定目标文本的翻译质量的过程中,可以获取目标文本的原文,以及目标文本的译文,并将目标文本的原文和译文作为关键词输入到搜索引擎,利用搜索引擎的检索能力得到检索结果页,再从检索结果页中提取目标文本的原文和译文的特征信息,然后将提取的特征信息输入到机器学习模型,由机器学习模型基于检索结果页中的特征信息对目标文本的原文和译文进行分析,确定用于评价目标文本翻译质量的评分指标,并输出该评分指标,根据输出的评分指标可以确定目标文本翻译质量,达到了对目标文本的翻译质量进行检查的目的,并且利用搜索引擎的检索能力,以及搜索引擎背后集成的大规模数据和语义判断能力,可以减少人工参与翻译质量检查的成本,从而实现了提高翻译质量的检查效率的技术效果,进而解决了翻译质量的检查效率低的技术问题。
本领域普通技术人员可以理解,图7所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图7其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图7中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图7所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的翻译质量的确定方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取目标文本的原文和译文;将原文和译文作为输入搜索引擎的关键词进行检索,得到检索结果页;从检索结果页中提取原文和译文的特征信息;将特征信息输入至机器学习模型进行分析,得到用于评价翻译质量的评分指标;输出评分指标。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:将译文作为关键词进行检索,得到第一类检索结果页;将原文和译文进行组合后得到的组合信息作为关键词输入搜索引擎,得到第二类检索结果页。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:从第一类检索结果页中提取与单语相关的特征;从第二类检索结果页中提取与双语相关的特征;将与单语相关的特征和与双语相关的特征共同输入至机器学习模型进行分析。
可选地,与单语相关的特征包括:在第一类检索结果页中提取的译文统计特征;与双语相关的特征包括:在第二类检索结果页中提取的原文统计特征和译文统计特征。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:从检索结果页中爬取检索结果数;并统计检索结果页面中原文和译文在检索结果页中的不同位置出现的次数,将检索结果数和次数作为特征信息。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:在将特征信息输入至机器学习模型进行分析,得到用于评价翻译质量的评分指标之后,比较评分指标和预设阈值;在评分指标大于预设阈值时,将评分指标对应的译文作为候选译文。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:展示获取的目标文本的原文和译文;展示将原文和译文作为输入搜索引擎的关键词进行检索得到的检索结果页;展示从检索结果页中提取的原文和译文的特征信息;展示将特征信息输入至机器学习模型进行分析得到的用于评价翻译质量的评分指标。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种翻译质量的确定方法,其特征在于,包括:
获取目标文本的原文和译文;
将所述原文和译文作为输入搜索引擎的关键词进行检索,得到检索结果页,包括:将所述译文作为关键词进行检索,得到第一类检索结果页,将所述原文和译文进行组合后得到的组合信息作为关键词输入所述搜索引擎,得到第二类检索结果页;
从所述检索结果页中提取所述原文和译文的特征信息,包括:从所述第一类检索结果页中提取与单语相关的特征;从所述第二类检索结果页中提取与双语相关的特征;将所述特征信息输入至机器学习模型进行分析,包括:将所述与单语相关的特征和与双语相关的特征共同输入至所述机器学习模型进行分析;
将所述特征信息输入至机器学习模型进行分析,得到用于评价翻译质量的评分指标;
输出所述评分指标。
2.根据权利要求1所述的方法,其特征在于,所述与单语相关的特征包括:在所述第一类检索结果页中提取的译文统计特征;所述与双语相关的特征包括:在所述第二类检索结果页中提取的原文统计特征和译文统计特征。
3.根据权利要求1所述的方法,其特征在于,从所述检索结果页中提取所述原文和译文的特征信息,包括:
从所述检索结果页中爬取检索结果数;并统计所述检索结果页面中所述原文和译文在检索结果页中的不同位置出现的次数,将所述检索结果数和所述次数作为所述特征信息。
4.根据权利要求1所述的方法,其特征在于,将所述特征信息输入至机器学习模型进行分析,得到用于评价翻译质量的评分指标之后,所述方法还包括:
比较所述评分指标和预设阈值;
在所述评分指标大于所述预设阈值时,将所述评分指标对应的译文作为候选译文。
5.一种翻译质量的确定方法,其特征在于,包括:
展示获取的目标文本的原文和译文;
展示将所述原文和译文作为输入搜索引擎的关键词进行检索得到的检索结果页,包括:将所述译文作为关键词进行检索,得到第一类检索结果页,将所述原文和译文进行组合后得到的组合信息作为关键词输入所述搜索引擎,得到第二类检索结果页;
展示从所述检索结果页中提取的所述原文和译文的特征信息,包括:从所述第一类检索结果页中提取与单语相关的特征;从所述第二类检索结果页中提取与双语相关的特征;将所述特征信息输入至机器学习模型进行分析,包括:将所述与单语相关的特征和与双语相关的特征共同输入至所述机器学习模型进行分析;
展示将所述特征信息输入至机器学习模型进行分析得到的用于评价翻译质量的评分指标。
6.一种翻译质量的确定装置,其特征在于,包括:
获取模块,用于获取目标文本的原文和译文;
检索模块,用于将所述原文和译文作为输入搜索引擎的关键词进行检索,得到检索结果页,将所述原文和译文进行组合后得到的组合信息作为关键词输入所述搜索引擎,得到第二类检索结果页;
提取模块,用于从所述检索结果页中提取所述原文和译文的特征信息,包括:从所述第一类检索结果页中提取与单语相关的特征;从所述第二类检索结果页中提取与双语相关的特征;将所述特征信息输入至机器学习模型进行分析,包括:将所述与单语相关的特征和与双语相关的特征共同输入至所述机器学习模型进行分析;
分析模块,用于将所述特征信息输入至机器学习模型进行分析,得到用于评价翻译质量的评分指标;
输出模块,用于输出所述评分指标。
7.一种非易失性存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至5中任意一项所述的翻译质量的确定方法。
8.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至5中任意一项所述的翻译质量的确定方法。
CN201911038740.3A 2019-10-29 2019-10-29 翻译质量的确定方法、装置、存储介质和处理器 Active CN112749316B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911038740.3A CN112749316B (zh) 2019-10-29 2019-10-29 翻译质量的确定方法、装置、存储介质和处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911038740.3A CN112749316B (zh) 2019-10-29 2019-10-29 翻译质量的确定方法、装置、存储介质和处理器

Publications (2)

Publication Number Publication Date
CN112749316A CN112749316A (zh) 2021-05-04
CN112749316B true CN112749316B (zh) 2024-06-14

Family

ID=75641633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911038740.3A Active CN112749316B (zh) 2019-10-29 2019-10-29 翻译质量的确定方法、装置、存储介质和处理器

Country Status (1)

Country Link
CN (1) CN112749316B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210365645A1 (en) * 2020-05-20 2021-11-25 Zhaoyang Li Social safe method and system of language translation

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101042692A (zh) * 2006-03-24 2007-09-26 富士通株式会社 基于语义预测的译文获取方法和设备
CN104011712A (zh) * 2011-06-24 2014-08-27 谷歌公司 对跨语言查询建议的查询翻译进行评价

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090182547A1 (en) * 2008-01-16 2009-07-16 Microsoft Corporation Adaptive Web Mining of Bilingual Lexicon for Query Translation
JP4945015B2 (ja) * 2012-01-17 2012-06-06 三菱電機インフォメーションシステムズ株式会社 文書検索システム、文書検索プログラム、および文書検索方法
JP5710551B2 (ja) * 2012-07-04 2015-04-30 日本電信電話株式会社 機械翻訳結果評価装置、翻訳パラメータ最適化装置、方法、及びプログラム
CN107122467B (zh) * 2017-04-26 2020-12-29 努比亚技术有限公司 一种搜索引擎的检索结果评价方法及装置、计算机可读介质
CN109710948A (zh) * 2018-11-27 2019-05-03 语联网(武汉)信息技术有限公司 机器翻译引擎推荐方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101042692A (zh) * 2006-03-24 2007-09-26 富士通株式会社 基于语义预测的译文获取方法和设备
CN104011712A (zh) * 2011-06-24 2014-08-27 谷歌公司 对跨语言查询建议的查询翻译进行评价

Also Published As

Publication number Publication date
CN112749316A (zh) 2021-05-04

Similar Documents

Publication Publication Date Title
US8799869B2 (en) System for ensuring comprehensiveness of requirements testing of software applications
WO2020077824A1 (zh) 异常问题的定位方法、装置、设备及存储介质
US9720912B2 (en) Document management system, document management method, and document management program
CN110929038A (zh) 基于知识图谱的实体链接方法、装置、设备和存储介质
CN108319888B (zh) 视频类型的识别方法及装置、计算机终端
CN107491536B (zh) 一种试题校验方法、试题校验装置及电子设备
US8793120B1 (en) Behavior-driven multilingual stemming
CN107340954A (zh) 一种信息提取方法和装置
CN111767334A (zh) 信息抽取方法、装置、电子设备及存储介质
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN106407316B (zh) 基于主题模型的软件问答推荐方法和装置
CN113239290A (zh) 用于舆情监测的数据分析方法、装置和电子装置
CN114334065B (zh) 病历处理方法、计算机可读存储介质及计算机设备
CN110209781A (zh) 一种文本处理方法、装置以及相关设备
CN112749316B (zh) 翻译质量的确定方法、装置、存储介质和处理器
CN117520800A (zh) 一种营养学文献模型训练方法、系统、电子设备及介质
CN116226494B (zh) 一种用于信息搜索的爬虫系统及方法
CN110826306B (zh) 数据采集的方法、装置、计算机可读存储介质及电子设备
CN116775639A (zh) 数据处理方法、存储介质及电子设备
CN111611781A (zh) 数据标注方法、问答方法、装置及电子设备
KR20130021945A (ko) 상품 정보 자동 추출 방법 및 장치
CN112598202B (zh) 试题难度评估方法、装置及存储介质、计算设备
CN111898387B (zh) 翻译方法及装置、存储介质、计算机设备
CN111507062A (zh) 文本的展示方法及装置、系统、存储介质、电子装置
CN112527982A (zh) 一种设备管理系统、方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant