CN111428523B - 翻译语料生成方法、装置、计算机设备及存储介质 - Google Patents

翻译语料生成方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111428523B
CN111428523B CN202010207518.8A CN202010207518A CN111428523B CN 111428523 B CN111428523 B CN 111428523B CN 202010207518 A CN202010207518 A CN 202010207518A CN 111428523 B CN111428523 B CN 111428523B
Authority
CN
China
Prior art keywords
content text
content
text
language
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010207518.8A
Other languages
English (en)
Other versions
CN111428523A (zh
Inventor
袁星宇
黄杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010207518.8A priority Critical patent/CN111428523B/zh
Publication of CN111428523A publication Critical patent/CN111428523A/zh
Application granted granted Critical
Publication of CN111428523B publication Critical patent/CN111428523B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本申请公开了一种翻译语料生成方法、装置、计算机设备及存储介质,属于计算机技术领域。所述方法包括:获取待翻译语种的第一内容文本;确定与所述第一内容文本的内容相似度大于目标阈值的第二内容文本,所述第二内容文本为目标语种;显示所述第一内容文本和所述第二内容文本;响应于内容编辑事件,对所述第一内容文本和所述第二内容文本中任一内容文本进行编辑,基于编辑后的内容文本,生成所述待翻译语种与所述目标语种之间的翻译语料。本申请直接向用户提供不同语种且内容相似度较高的第一内容文本和对应的第二内容文本,使得用户只需对两者进行比对,并进行微调即可得到不同语种之间的翻译语料,提高了翻译语料生成的效率。

Description

翻译语料生成方法、装置、计算机设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种翻译语料生成方法、装置、计算机设备及存储介质。
背景技术
由于不同语种之间的交流存在障碍,方便、快捷、准确的进行不同语种的翻译成为需求。采用深度学习方法训练得到翻译模型,使用该翻译模型进行不同语种的翻译是一种广泛使用的技术手段,而翻译模型的训练需要大量的翻译语料,如何为模型提供翻译语料成为值得关注的问题。
相关技术中,对于偏冷门的语种,依然需要专业领域的人士对每一句话或每一篇文章进行翻译,并且需要参考翻译字典或第三方翻译工具来辅助翻译。
上述技术在翻译语料的生成过程中,需要人工参考翻译字典或第三方翻译工具来进行不同语种的翻译,且手动输入全部的翻译内容,翻译语料生成的效率低。
发明内容
本申请实施例提供了一种翻译语料生成方法、装置、计算机设备及存储介质,可以提高翻译语料生成的效率。所述技术方案如下:
一方面,提供了一种翻译语料生成方法,所述方法包括:
获取待翻译语种的第一内容文本;
确定与所述第一内容文本的内容相似度大于目标阈值的第二内容文本,所述第二内容文本为目标语种,所述待翻译语种与所述目标语种为不同语种;
显示所述第一内容文本和所述第二内容文本;
响应于内容编辑事件,对所述第一内容文本和所述第二内容文本中的任一内容文本进行编辑;
基于编辑后的内容文本,生成所述待翻译语种与所述目标语种之间的翻译语料。
在一种可能实现方式中,所述响应于内容编辑事件,对所述第一内容文本和所述第二内容文本中的任一内容文本进行编辑之前,所述方法还包括:
对所述语料生成界面进行光学字符识别,得到所述语料生成界面中所述第一内容文本的文本坐标和所述第二内容文本的文本坐标;
基于所述第一内容文本的文本坐标和所述第二内容文本的文本坐标,获取所述第一内容文本的文本信息和所述第二内容文本的文本信息;
基于所述第一内容文本的文本信息和所述第二内容文本的文本信息,在所述语料生成界面的所述第一编辑区域内生成所述第一内容文本,在所述语料生成界面的所述第二编辑区域内生成所述第二内容文本。
在一种可能实现方式中,所述获取待翻译语种的第一内容文本,包括:
根据起始统一资源定位符URL,迭代爬取所述起始URL对应的页面上的至少一个URL,所述页面上的内容文本为所述待翻译语种;
对于当前爬取到的URL,对所述当前爬取到的URL进行解析,得到所述当前爬取到的URL对应的内容文本作为所述第一内容文本。
在一种可能实现方式中,所述基于编辑后的内容文本,生成所述待翻译语种与所述目标语种之间的翻译语料之后,所述方法还包括:
基于所述翻译语料进行训练,得到翻译模型,所述翻译模型用于将所述待翻译语种的内容文本翻译为所述目标语种的内容文本。
一方面,提供了一种翻译语料生成装置,所述装置包括:
获取模块,用于获取待翻译语种的第一内容文本;
确定模块,用于确定与所述第一内容文本的内容相似度大于目标阈值的第二内容文本,所述第二内容文本为目标语种,所述待翻译语种与所述目标语种为不同语种;
显示模块,用于显示所述第一内容文本和所述第二内容文本;
编辑模块,用于响应于内容编辑事件,对所述第一内容文本和所述第二内容文本中任一内容文本进行编辑;
生成模块,用于基于编辑后的内容文本,生成所述待翻译语种与所述目标语种之间的翻译语料。
在一种可能实现方式中,所述显示模块用于:
在语料生成界面中显示所述第一内容文本和所述第二内容文本,所述语料生成界面中设置有第一编辑区域和第二编辑区域,所述第一编辑区域用于对所述第一内容文本进行编辑,所述第二编辑区域用于对所述第二内容文本进行编辑。
在一种可能实现方式中,所述生成模块用于执行下述任一项:
基于编辑后的第一内容文本和所述第二内容文本,生成所述待翻译语种与所述目标语种之间的翻译语料;或,
基于编辑后的第二内容文本和所述第一内容文本,生成所述待翻译语种与所述目标语种之间的翻译语料;或,
基于编辑后的第一内容文本和编辑后的第二内容文本,生成所述待翻译语种与所述目标语种之间的翻译语料。
在一种可能实现方式中,所述装置还包括下述至少一项:
第一输入模块,用于响应于第一粘贴事件,在所述第一编辑区域内输入所述第一内容文本;
第二输入模块,用于响应于第二粘贴事件,在所述第二编辑区域内输入所述第二内容文本。
在一种可能实现方式中,所述装置还包括:
识别模块,用于对所述语料生成界面进行光学字符识别,得到所述语料生成界面中所述第一内容文本的文本坐标和所述第二内容文本的文本坐标;
所述获取模块还用于基于所述第一内容文本的文本坐标和所述第二内容文本的文本坐标,获取所述第一内容文本的文本信息和所述第二内容文本的文本信息;
所述生成模块还用于基于所述第一内容文本的文本信息和所述第二内容文本的文本信息,在所述语料生成界面的所述第一编辑区域内生成所述第一内容文本,在所述语料生成界面的所述第二编辑区域内生成所述第二内容文本。
在一种可能实现方式中,所述确定模块用于:
根据所述第一内容文本的标题和正文中部分字符,生成所述第一内容文本的摘要;
获取所述第一内容文本的摘要所对应目标语种的机器翻译结果;
根据所述机器翻译结果搜索所述目标语种的搜索结果,从所述搜索结果中选取待选内容文本;
从所述待选内容文本中,选取与所述第一内容文本的内容相似度大于所述目标阈值的内容文本作为所述第二内容文本。
在一种可能实现方式中,所述确定模块用于:
获取所述第一内容文本的标题所对应目标语种的机器翻译结果;
对于任一待选内容文本,根据所述第一内容文本的标题所对应目标语种的机器翻译结果、所述第一内容文本的摘要所对应目标语种的机器翻译结果、所述任一待选内容文本的标题和摘要,获取所述任一待选内容文本与所述第一内容文本的标题相似度和摘要相似度;
对所述标题相似度和摘要相似度进行加权求和,得到所述任一待选内容文本与所述第一内容文本的内容相似度;
响应于所述任一待选内容文本与所述第一内容文本的内容相似度大于所述目标阈值,将所述述任一待选内容文本作为所述第二内容文本。
在一种可能实现方式中,所述获取模块用于:
根据起始统一资源定位符URL,迭代爬取所述起始URL对应的页面上的至少一个URL,所述页面上的内容文本为所述待翻译语种;
对于当前爬取到的URL,对所述当前爬取到的URL进行解析,得到所述当前爬取到的URL对应的内容文本作为所述第一内容文本。
在一种可能实现方式中,所述显示模块还用于:
在显示所述第一内容文本和所述第二内容文本时,显示所述第一内容文本所对应目标语种的机器翻译结果。
在一种可能实现方式中,所述装置还包括:
训练模块,用于基于所述翻译语料进行训练,得到翻译模型,所述翻译模型用于将所述待翻译语种的内容文本翻译为所述目标语种的内容文本。
一方面,提提供了一种计算机设备,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述程序代码由所述一个或多个处理器加载并执行以实现上述翻译语料生成方法。
一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现上述翻译语料生成方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过获取与待翻译语种的第一内容文本为不同语种且内容相似度大于阈值的第二内容文本,然后显示第一内容文本和第二内容文本,使得用户可以对任一内容文本进行编辑,从而基于内容编辑事件生成待翻译语种与目标语种之间的翻译语料。上述技术方案直接向用户提供不同语种且内容相似度较高的第一内容文本和对应的第二内容文本,使得用户只需对两者进行比对,并进行微调即可得到不同语种之间的翻译语料,提高了翻译语料生成的效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种翻译语料生成方法的实施环境示意图;
图2是本申请实施例提供的一种翻译语料生成方法的流程图;
图3是本申请实施例提供的一种翻译语料生成过程的示意图;
图4是本申请实施例提供的一种语料生成界面的示意图;
图5是本申请实施例提供的一种翻译语料生成装置的结构示意图;
图6是本申请实施例提供的一种终端的结构示意图;
图7是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
在对本申请实施例进行详细地解释说明之前,先对本申请实施例涉及到的一些名词进行解释说明。
域名:又称网域,是由一串用点分隔的名字组成的Internet(互联网)上某一台计算机或计算机组的名称,用于在数据传输时对计算机的定位标识。
Goose3:最初是用Java编写的一篇文章提取器,最近将它(Auff2011)转换成Scala项目,这是Python中的完全重写。该软件的目标是获取任何新闻文章或文章类型的网页,不仅提取文章的主体,而且还提取所有元数据和图片。
Selenium:是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(Internet Explorer,网页浏览器)(IE7、IE8、IE9、IE10、IE11),Mozilla Firefox,Safari,Google Chrome,Opera等。这个工具的主要功能包括:测试与浏览器的兼容性,包括测试应用程序看是否能够很好的工作在不同浏览器和操作系统之上。测试系统功能包括创建回归测试检验软件功能和用户需求。支持自动录制动作和自动生成Net、Java、Perl等不同语言的测试脚本。
Gensim:是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF(Term Frequency–InverseDocument Frequency,词频和逆向文档频率),LSA(Latent Semantic Analysis,潜在语义分析),LDA(Linear Discriminant Analysis,线性判别分析),和Word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API(Application Programming Interface,应用程序编程接口)。
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。
深度学习/机器学习(Machine Learning, ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
本申请实施例提供的方案涉及人工智能的深度学习技术,通过生成用于进行模型训练的语料,可以采用深度学习方法训练得到翻译模型,从而使用该翻译模型进行不同语种的翻译。具体内容将通过下述实施例进行说明。
图1是本申请实施例提供的一种翻译语料生成方法的实施环境示意图,参见图1,该实施环境中可以包括终端101和服务器102。
终端101通过无线网络或有线网络与服务器102相连。终端101可以是智能手机、平板电脑、便携计算机等设备。终端101安装和运行有支持语料生成的应用程序。示例性的,终端101是用户使用的终端,终端101中运行的应用程序内登录有用户账号。
服务器102可以是云计算平台、虚拟化中心等。服务器102用于为支持语料生成的应用程序提供后台服务。可选地,服务器102承担主要语料生成工作,终端101承担次要语料生成工作;或者,服务器102承担次要语料生成工作,终端101承担主要语料生成工作;或者,服务器102或终端101分别可以单独承担语料生成工作。
可选地,服务器102包括:接入服务器、语料生成服务器和数据库。接入服务器用于为终端101提供接入服务。语料生成服务器用于提供语料生成有关的后台服务。该数据库可以包括语料数据库以及用户信息数据库等,基于服务器所提供的不同服务可以对应于不同数据库,语料生成服务器可以是一台或多台。当语料生成服务器是多台时,存在至少两台语料生成服务器用于提供不同的服务,和/或,存在至少两台语料生成服务器用于提供相同的服务,比如以负载均衡方式提供同一种服务,本申请实施例对此不加以限定。
终端101可以泛指多个终端中的一个,本实施例仅以终端101来举例说明。
本领域技术人员可以知晓,上述终端的数量可以更多或更少。比如上述终端可以仅为一个,或者上述终端为几十个或几百个,或者更多数量,此时上述实施环境中还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。
图2是本申请实施例提供的一种翻译语料生成方法的流程图。该方法由计算机设备执行,该计算机设备可以是终端,也可以是服务器,参见图2,该方法可以包括:
201、计算机设备获取待翻译语种的第一内容文本。
其中,待翻译语种可以为任一种需要翻译或较难翻译的语种。
在一种可能实现方式中,该获取待翻译语种的第一内容文本,包括:根据起始URL(Uniform Resource Locator,统一资源定位符),迭代爬取该起始URL对应的页面上的至少一个URL,该页面上的内容文本为待翻译语种;对于当前爬取到的URL,对该当前爬取到的URL进行解析,得到该当前爬取到的URL对应的内容文本作为该第一内容文本。
其中,该起始URL可以由用户预先指定,起始URL对应的页面可以称为起始页面,该页面上的至少一个URL可以是该页面的至少一个子页面的URL。
计算机设备可以通过Scrapy爬虫框架,限定爬取的域名(domin),迭代爬取起始页面上的所有URL并存入爬取队列中。同时,将爬取到的URL通过Goose3 库进行解析,提取页面的内容文本作为第一内容文本。重复以上过程,直到此域名下的所以URL都已经进入到爬取队列中。
参见图3,图3是本申请实施例提供的一种翻译语料生成过程的示意图,如图3中的流程301所示,计算机设备可以通过Scrapy爬取全站文章,起始URL可以为一个网站,该起始URL对应的页面可以为该网站的首页,计算机设备可以提取该网站的首页作为起始URL,将其加入Scrapy爬取队列,进行迭代爬取,判断Scrapy爬取队列是否爬取完毕,也即是,判断起始URL对应的页面上的所有URL是否爬取完毕,如果否(未爬取完毕),则继续爬取,同时打开当前爬取到的URL,提取文本内容,得到第一内容文本,如文章文本;如果是(爬取完毕),则终止爬取。
通过根据一个起始URL,迭代爬取对应页面上的所有URL,对URL进行解析,得到第一内容文本,提供了一种获取第一内容文本的有效方式,可以提高第一内容文本的获取效率。
202、计算机设备根据该第一内容文本的标题和正文中部分字符,生成该第一内容文本的摘要。
在一种可能实现方式中,该部分字符可以是正文的前第一数量的字符,计算机设备可以提取第一内容文本的标题和正文,将标题和正文的前第一数量的字符组装成摘要。例如,第一内容文本为文章文本,则计算机设备可以提取文章文本的标题和正文,将标题和正文的前150个字符组装成文章摘要。通过根据内容文本的标题和正文中前一定数量的字符生成摘要,使得该摘要能够很好的代表该内容文本,提高了摘要的准确性和可靠性,从而便于后续的文本搜索。在一些可能实施例中,该部分字符也可以是正文的中间目标数量的字符,或正文的结尾目标数量的字符,本申请实施例对此不做限定。
计算机设备获取的第一内容文本可以有多个,计算机设备每获取一个第一内容文本,则执行步骤202,生成一个第一内容文本的摘要。
203、计算机设备获取该第一内容文本的摘要所对应目标语种的机器翻译结果,该待翻译语种与该目标语种为不同语种。
计算机设备可以对第一内容文本的摘要进行目标语种的机器翻译处理,将待翻译语种的摘要翻译成目标语种的摘要,如通过翻译引擎进行翻译,得到第一内容文本的摘要的机器翻译结果,该机器翻译结果的语种为目标语种,例如,目标语种可以为汉语。
以第一内容文本为文章文本为例,如图3所示,计算机设备可以对文章文本的摘要进行翻译,具体地,计算机设备可以通过翻译引擎,将文章文本的摘要翻译成汉语,得到汉语摘要。
204、计算机设备根据第一内容文本的摘要的机器翻译结果搜索目标语种的搜索结果,从该搜索结果中选取待选内容文本。
计算机设备可以将第一内容文本的摘要的机器翻译结果作为搜索关键词,进行搜索处理,如过Selenium 模拟浏览器打开搜索引擎的首页,将摘要的机器翻译结果作为搜索关键词进行搜索,得到至少一个搜索结果,从至少一个搜索结果中选取待选内容文本。
在一种可能实现方式中,计算机设备从搜索结果中从搜索结果中选取待选内容文本,包括:从搜索结果中选取前第二数量的搜索结果作为待选内容文本。通过将搜索结果中前一定数量的搜索结果作为待选内容文本,由于搜索结果越靠前表明与搜索关键词越相关,因此可以保证待选内容文本与第一内容文本的内容相似度较高。如图3所示,计算机设备可以将汉语摘要作为搜索关键词进行搜索,将搜索结果的前三位作为待选汉语文章文本。
205、计算机设备从该待选内容文本中,选取与该第一内容文本的内容相似度大于该目标阈值的内容文本作为该第一内容文本对应的第二内容文本,该第二内容文本为目标语种,该待翻译语种与该目标语种为不同语种。
其中,该第一内容文本与该第二内容文本的语种不同且内容相似度大于目标阈值,该内容相似度可以用于指示描述同一事件的可能性,也即是,两个文本为同一内容采用不同语种描述的可能性。
在一种可能实现方式中,从该待选内容文本中,选取与该第一内容文本的内容相似度大于该目标阈值的内容文本作为该第二内容文本,包括下述步骤一至步骤四:
步骤一、获取该第一内容文本的标题所对应目标语种的机器翻译结果和该第一内容文本的摘要所对应目标语种的机器翻译结果。
计算机设备可以将第一内容文本的标题和摘要分别通过翻译引擎进行翻译,将待翻译语种的标题和摘要翻译为目标语种的标题和摘要,例如,第一内容文本为文章文本,则计算机设备可以将标题和摘要分别通过翻译引擎,翻译成汉语标题和汉语摘要。
步骤二、对于任一待选内容文本,根据该第一内容文本的标题所对应目标语种的机器翻译结果、该第一内容文本的摘要所对应目标语种的机器翻译结果、该任一待选内容文本的标题和摘要,获取该任一待选内容文本与该第一内容文本的标题相似度和摘要相似度。
计算机设备可以待选内容文本的标题和摘要提取出来作为待选标题和待选摘要,使用相似度算法,计算待选内容文本的标题与第一内容文本的标题的机器翻译结果之间的相似度,将其作为待选内容文本与第一内容文本的标题相似度,以及计算待选内容文本的摘要与第一内容文本的摘要的机器翻译结果之间的相似度,将其作为待选内容文本与第一内容文本的摘要相似度。其中,相似度算法可以是Gensim相似度算法或其他文本相似度算法。
步骤三、对该标题相似度和摘要相似度进行加权求和,得到该任一待选内容文本与该第一内容文本的内容相似度。
计算机设备可以分别以第一权重和第二权重,对标题相似度和摘要相似度进行加权求和,将加权求和结果作为待选内容文本与该第一内容文本的内容相似度。例如,第一权重可以为0.7,第二权重可以为0.3,内容相似度计算公式可以表示如下:
total simi =np.array ([i[1] for i in title_simi])*0.7+np.array([i[1]for i in descripytion_simi])*0.3
其中,total simi表示内容相似度,np.array ([i[1]for i in title_simi])表示标题相似度,np.array([i[1] for i in descripytion_simi]) 表示摘要相似度。
步骤四、当该任一待选内容文本与该第一内容文本的内容相似度大于该目标阈值时,将该述任一待选内容文本作为该第二内容文本。
如图3所示,计算机设备可以通过相似度计算,将内容相似度大于目标阈值的待选内容文本作为第一内容文本对应的第二内容文本,将该第一内容文本和第二内容文本匹配为平行语料。
通过根据第一内容文本的标题和摘要的机器翻译结果,以及待选内容文本的标题和摘要,分别计算标题之间的相似度,以及对应摘要之间的相似度,然后计算一个综合相似度,根据综合相似度选取对应的第二内容文本,提供了一种计算不同内容文本的内容相似度的有效方式,保证了准确性。
需要说明的是,步骤201至步骤205是确定与该第一内容文本的内容相似度大于目标阈值的第二内容文本的一种可能实现方式,其中,该第一内容文本与该第二内容文本的语种不同且内容相似度大于目标阈值。在一些可能实施例中,计算机设备在获取第一内容文本后,可以提取第一内容文本的标题,获取标题的机器翻译结果,基于标题的机器翻译结果进行搜索,从搜索结果中选取第一内容文本对应的第二内容文本。在另一些可能实施例中,计算机设备在获取第一内容文本后,也可以直接对第一内容文本进行机器翻译处理,得到第一内容文本的机器翻译结果,根据第一内容文本的机器翻译结果进行搜索,从搜索结果中选取第一内容文本对应的第二内容文本。
上述步骤201至步骤205的过程也即为图3中的流程302所示的平行语料匹配环节。通过获取第一内容文本后,生成该第一内容文本的摘要,根据摘要的翻译结果进行搜索,从搜索结果中选取第一内容文本对应的第二内容文本,由于摘要根据内容文本的标题和正文中前第一数量的字符生成,根据摘要的翻译结果搜索到的内容文本可能与第一内容文本为同篇文章,进而从中选择与第一内容文本内容相似度大的内容文本作为第二内容文本,可以保证准确性。
通过借助模拟浏览器、文本相似度的技术,使用机器自动化全流程替代人工手工搜索平行语料,更具体地,根据一个已知的网站的URL,获取文章的标题与正文,并生成摘要,通过文本相似度算法匹配相关汉语文章,后续的标注环节只需进行两篇文章的比对即可,提升了效率,节省了人工成本。
在一种可能实现方式中,计算机设备获取第一内容文本和对应的第二内容文本之后,本申请实施例提供的方法还包括:计算机设备将该第一内容文本和该第二内容文本对应存储到目标文件中。通过将第一内容文本和对应的第二内容文本进行存储,使得计算机设备可以在需要时,直接从目标文件中获取该第一内容文本和对应的第二内容文本,提高内容文本的获取效率。
206、计算机设备显示该第一内容文本和该第二内容文本。
在一种可能实现方式中,计算机设备显示该第一内容文本和该第二内容文本,包括:计算机设备在语料生成界面中显示该第一内容文本和该第二内容文本,该语料生成界面中设置有第一编辑区域和第二编辑区域,该第一编辑区域用于对该第一内容文本进行编辑,该第二编辑区域用于对该第二内容文本进行编辑。通过在界面上显示第一内容文本、第二内容文本并设置有各自对应的编辑区域,使得用户在看到第一内容文本和第二内容文本后,如果认为需要调整第一内容文本或第二内容文本,则可以在对应的编辑区域内进行编辑,提升了人工标注的效率。
参见图4,图4是本申请实施例提供的一种语料生成界面的示意图,如图4所示,计算机设备可以在语料生成界面上显示第一内容文本,如在图4中区域401内,计算机设备可以在语料生成界面上显示第二内容文本,如在图4中的区域402内,除了显示第一内容文本和第二内容文本以外,该语料生成界面上还可以提供有第一编辑区域(如图4中的输入区403)和第二编辑区域(如图4中的输入区404),分别用于对第一内容文本和第二内容文本进行编辑。
在一种可能实现方式中,本申请实施例提供的方法还包括:在显示该第一内容文本和该第二内容文本时,显示该第一内容文本所对应目标语种的机器翻译结果。通过在界面中显示第一内容文本的机器翻译结果,使得用户可以参考机器翻译结果,对第一内容文本或第二内容文本进行编辑,可以提升人工标注的效率。如图4所示,计算机设备可以在语料生成界面上显示第一内容文本的机器翻译结果,如在图4中机翻结果对应的区域405内显示第一内容文本的机器翻译结果。
在一种可能实现方式中,计算机设备显示该第一内容文本和该第二内容文本之前,本申请实施例提供的方法还包括:响应于语料标注请求,从目标文件中获取该第一内容文本和对应的该第二内容文本。通过在接收到语料标注请求时,从目标文件中获取预先存储的第一内容文本和对应的该第二内容文本,使得计算机设备可以在用户需要标注语料时,快速地为用户提供对应的内容文本进行标注,从而提高标注效率。
其中,该语料标注请求用于请求生成语料,该语料标注请求可以由用户操作触发,如计算机设备可以提供一个界面,该界面中可以包括语料标注版块,用户可以点击该语料标注版块,触发该语料标注请求。计算机设备可以在接收到语料标注请求时,从目标文件中获取预先存储的第一内容文本和对应的该第二内容文本,然后进行显示。
207、计算机设备响应于内容编辑事件,对该第一内容文本和该第二内容文本中任一内容文本进行编辑。
计算机设备响应于内容编辑事件,对该第一内容文本和该第二内容文本中任一内容文本进行编辑,包括下述任一种可能实现方式:
第一种方式、响应于在该第一编辑区域内的内容编辑事件,对第一内容文本进行编辑,得到编辑后的第一内容文本。
如果用户仅在第一编辑区域内对第一内容文本进行编辑,则计算机设备可以获取到编辑后的第一内容文本。
第二种方式、响应于在该第二编辑区域内的内容编辑事件,对第二内容文本进行编辑,得到编辑后的第二内容文本。
如果用户仅在第二编辑区域内对第二内容文本进行编辑,则计算机设备可以获取到编辑后的第二内容文本。
第三种方式、响应于在该第一编辑区域和该第二编辑区域内的内容编辑事件,对第一内容文本和第二内容文本进行编辑,得到编辑后的第一内容文本和编辑后的第二内容文本。
如果用户既在第一编辑区域内对第一内容文本进行编辑,又在第二编辑区域内对第二内容文本进行编辑,则计算机设备可以获取到编辑后的第一内容文本和编辑后的第二内容文本。
上述三种方式使得用户可以仅对某一语种的内容文本进行编辑,也可以对不同语种的内容文本均进行编辑,提高了灵活性。
在一种可能实现方式中,计算机设备响应于内容编辑事件,对该第一内容文本和该第二内容文本中的任一内容文本进行编辑之前,本申请实施例提供的方法还包括下述至少一项:响应于第一粘贴事件,在该第一编辑区域内输入该第一内容文本;响应于第二粘贴事件,在该第二编辑区域内输入该第二内容文本。通过在检测到粘贴事件时,响应于粘贴事件,在编辑区域内输入内容文本,使得用户可以进一步对内容文本进行编辑。
其中,第一粘贴事件为将第一内容文本粘贴到第一编辑区域内的事件,第二粘贴事件为将第二内容文本粘贴到第二编辑区域内的事件。
计算机设备在显示第一内容文本和第二内容文本时,用户可以对第一内容文本进行复制操作,然后在第一编辑区域内进行粘贴操作,触发该第一粘贴事件,计算机设备在检测到该第一粘贴事件时,作为响应,可以在第一编辑区域内输入第一内容文本。用户可以对第二内容文本进行复制操作,然后在第二编辑区域内进行粘贴操作,触发该第二粘贴事件,计算机设备在检测到该第二粘贴事件时,作为响应,可以在第二编辑区域内输入第二内容文本。
在另一种可能实现方式中,计算机设备响应于内容编辑事件,对该第一内容文本和该第二内容文本中的任一内容文本进行编辑之前,本申请实施例提供的方法还包括:对该语料生成界面进行光学字符识别,得到该语料生成界面中该第一内容文本的文本坐标和该第二内容文本的文本坐标;基于该第一内容文本的文本坐标和该第二内容文本的文本坐标,获取该第一内容文本的文本信息和该第二内容文本的文本信息;基于该第一内容文本的文本信息和该第二内容文本的文本信息,在该语料生成界面的该第一编辑区域内生成该第一内容文本,在该语料生成界面的该第二编辑区域内生成该第二内容文本。
计算机设备可以使用OCR(Optical Character Recognition,光学字符识别)技术获取第一内容文本和该第二内容文本的文本坐标,基于该文本坐标获取具体的文本信息,从而直接在编辑区域内生成对应的内容文本,这样可以取消复制粘贴环节,简化了用户操作。
208、计算机设备基于编辑后的内容文本,生成该待翻译语种与该目标语种之间的翻译语料。
计算机设备基于编辑后的内容文本,生成该待翻译语种与该目标语种之间的翻译语料,包括下述任一种可能实现方式:
第一种方式、基于该第一内容文本和编辑后的第二内容文本,生成该待翻译语种与该目标语种之间的翻译语料。
该步骤208中的第一种方式对应步骤207中的第一种方式,计算机设备基于编辑后的第二内容文本和未编辑的第一内容文本生成翻译语料。
第二种方式、基于该第二内容文本和编辑后的第一内容文本,生成该待翻译语种与该目标语种之间的翻译语料。
该步骤208中的第二种方式对应步骤207中的第二种方式,计算机设备基于编辑后的第一内容文本和未编辑的第二内容文本生成语料。
第三种方式、基于编辑后的第一内容文本和编辑后的第二内容文本,生成该待翻译语种与该目标语种之间的翻译语料。
该步骤208中的第三种方式对应步骤207中的第三种方式,计算机设备基于编辑后的第一内容文本和编辑后的第二内容文本生成语料。
在一种可能实现方式中,计算机设备基于编辑后的内容文本,生成该待翻译语种与该目标语种之间的翻译语料之后,本申请实施例提供的方法还包括:基于该翻译语料进行训练,得到翻译模型,该翻译模型用于将待翻译语种的内容文本翻译为目标语种的内容文本。
计算机设备在生成待翻译语种与该目标语种之间的翻译语料后,由于该翻译语料包括不同语种的第一内容文本和对应的第二内容文本,因而计算机设备可以基于该语料,采用深度学习方法对翻译模型进行训练,使得基于不同语种的内容文本训练得到的翻译模型可以将待翻译语种的内容文本翻译为目标语种的内容文本。
上述技术方案通过内容相似度爬取不同语种的内容文本,组成平行语料,推送到前端显示,由人工进行判断,对不同语种的内容文本进行对应匹配,对于翻译不准确的内容进行微调即可得到最终语料,可以提高语料生成的效率。
本申请实施例提供的技术方案可以应用于深度学习中。针对翻译领域,相关技术依靠人工手动进行翻译存在输入效率低,或使用机器翻译(其他翻译工具)又会存在翻译结果生硬,准确度差。本申请可以通过网站获取新闻,同时找到对应的汉语新闻,通过文章标题与内容进行比对是否为同篇文章,从中找到更为合适的翻译,直接提供文章和对应的汉语文章,人工只需对两种结果进行比对,并对结果进行微调即可,可以解决人工纯手动输入全部翻译内容的问题以及语言翻译中经常存在的生硬翻译问题,节省人工成本,提升机器学习中人工标注语料的效率,可将相关技术中的人工输入效率30条/h,提升至100条/h,具体提升效果可以根据网站翻译质量具体评估。
本申请实施例提供的方法,通过获取与待翻译语种的第一内容文本为不同语种且内容相似度大于阈值的第二内容文本,然后显示第一内容文本和第二内容文本,使得用户可以对任一内容文本进行编辑,从而基于内容编辑事件生成待翻译语种与目标语种之间的翻译语料。上述技术方案直接向用户提供不同语种且内容相似度较高的第一内容文本和对应的第二内容文本,使得用户只需对两者进行比对,并进行微调即可得到不同语种之间的翻译语料,提高了翻译语料生成的效率。
图5是本申请实施例提供的一种翻译语料生成装置的结构示意图。参照图5,该装置包括:
获取模块501,用于获取待翻译语种的第一内容文本;
确定模块502,用于确定与该第一内容文本的内容相似度大于目标阈值的第二内容文本,该第二内容文本为目标语种,该待翻译语种与该目标语种为不同语种;
显示模块503,用于显示该第一内容文本和该第二内容文本;
编辑模块504,用于响应于内容编辑事件,对该第一内容文本和该第二内容文本中任一内容文本进行编辑;
生成模块505,用于基于编辑后的内容文本,生成该待翻译语种与该目标语种之间的翻译语料。
在一种可能实现方式中,该显示模块503用于:
在语料生成界面中显示该第一内容文本和该第二内容文本,该语料生成界面中设置有第一编辑区域和第二编辑区域,该第一编辑区域用于对该第一内容文本进行编辑,该第二编辑区域用于对该第二内容文本进行编辑。
在一种可能实现方式中,该生成模块505用于执行下述任一项:
基于编辑后的第一内容文本和该第二内容文本,生成该待翻译语种与该目标语种之间的翻译语料;或,
基于编辑后的第二内容文本和该第一内容文本,生成该待翻译语种与该目标语种之间的翻译语料;或,
基于编辑后的第一内容文本和编辑后的第二内容文本,生成该待翻译语种与该目标语种之间的翻译语料。
在一种可能实现方式中,该装置还包括下述至少一项:
第一输入模块,用于响应于第一粘贴事件,在该第一编辑区域内输入该第一内容文本;
第二输入模块,用于响应于第二粘贴事件,在该第二编辑区域内输入该第二内容文本。
在一种可能实现方式中,该装置还包括:
识别模块,用于对该语料生成界面进行光学字符识别,得到该语料生成界面中该第一内容文本的文本坐标和该第二内容文本的文本坐标;
该获取模块还用于基于该第一内容文本的文本坐标和该第二内容文本的文本坐标,获取该第一内容文本的文本信息和该第二内容文本的文本信息;
基于该第一内容文本的文本信息和该第二内容文本的文本信息,在该语料生成界面的该第一编辑区域内生成该第一内容文本,在该语料生成界面的该第二编辑区域内生成该第二内容文本。
在一种可能实现方式中,该确定模块502用于:
根据该第一内容文本的标题和正文中部分字符,生成该第一内容文本的摘要;
获取该第一内容文本的摘要所对应目标语种的机器翻译结果;
根据该机器翻译结果搜索该目标语种的搜索结果,从该搜索结果中选取待选内容文本;
从该待选内容文本中,选取与该第一内容文本的内容相似度大于该目标阈值的内容文本作为该第二内容文本。
在一种可能实现方式中,该确定模块502用于:
获取该第一内容文本的标题所对应目标语种的机器翻译结果;
对于任一待选内容文本,根据该第一内容文本的标题所对应目标语种的机器翻译结果、该第一内容文本的摘要所对应目标语种的机器翻译结果、该任一待选内容文本的标题和摘要,获取该任一待选内容文本与该第一内容文本的标题相似度和摘要相似度;
对该标题相似度和摘要相似度进行加权求和,得到该任一待选内容文本与该第一内容文本的内容相似度;
当该任一待选内容文本与该第一内容文本的内容相似度大于该目标阈值时,将该述任一待选内容文本作为该第二内容文本。
在一种可能实现方式中,该获取模块501用于:
根据起始统一资源定位符URL,迭代爬取该起始URL对应的页面上的至少一个URL,该页面上的内容文本为该待翻译语种;
对于当前爬取到的URL,对该当前爬取到的URL进行解析,得到该当前爬取到的URL对应的内容文本作为该第一内容文本。
在一种可能实现方式中,该显示模块503还用于:
在显示该第一内容文本和该第二内容文本时,显示该第一内容文本所对应目标语种的机器翻译结果。
在一种可能实现方式中,该装置还包括:
训练模块,用于基于该翻译语料进行训练,得到翻译模型,该翻译模型用于将该待翻译语种的内容文本翻译为该目标语种的内容文本。
需要说明的是:上述实施例提供的翻译语料生成装置在语料生成时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的翻译语料生成装置与翻译语料生成方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述实施例中的计算机设备可以为终端。
图6是本申请实施例提供的一种终端的结构示意图。该终端600可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端600包括有:一个或多个处理器601和一个或多个存储器602。
处理器601可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器601可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器601还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器601所执行以实现本申请中方法实施例提供的翻译语料生成方法。
在一些实施例中,终端600还可选包括有:外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地,外围设备包括:射频电路604、显示屏605、摄像头组件606、音频电路607和电源609中的至少一种。
外围设备接口603可被用于将I/O(Input /Output,输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中,处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上;在一些其他实施例中,处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路604用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路604包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路604还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏605用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时,显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时,显示屏605还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏605可以为一个,设置终端600的前面板;在另一些实施例中,显示屏605可以为至少两个,分别设置在终端600的不同表面或呈折叠设计;在再一些实施例中,显示屏605可以是柔性显示屏,设置在终端600的弯曲表面上或折叠面上。甚至,显示屏605还可以设置成非矩形的不规则图形,也即异形屏。显示屏605可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件606用于采集图像或视频。可选地,摄像头组件606包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器601进行处理,或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路607还可以包括耳机插孔。
电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于:加速度传感器611、陀螺仪传感器612、压力传感器613、光学传感器615以及接近传感器616。
加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号,控制显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器612可以检测终端600的机体方向及转动角度,陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器613可以设置在终端600的侧边框和/或显示屏605的下层。当压力传感器613设置在终端600的侧边框时,可以检测用户对终端600的握持信号,由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在显示屏605的下层时,由处理器601根据用户对显示屏605的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
光学传感器615用于采集环境光强度。在一个实施例中,处理器601可以根据光学传感器615采集的环境光强度,控制显示屏605的显示亮度。具体地,当环境光强度较高时,调高显示屏605的显示亮度;当环境光强度较低时,调低显示屏605的显示亮度。在另一个实施例中,处理器601还可以根据光学传感器615采集的环境光强度,动态调整摄像头组件606的拍摄参数。
接近传感器616,也称距离传感器,通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中,当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时,由处理器601控制显示屏605从亮屏状态切换为息屏状态;当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时,由处理器601控制显示屏605从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图6中示出的结构并不构成对终端600的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
上述实施例中的计算机设备可以为服务器。
图7是本申请实施例提供的一种服务器的结构示意图。该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(Central Processing Units,CPU)701和一个或多个存储器702,其中,该存储器702中存储有至少一条程序代码,该至少一条程序代码由该处理器701加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种存储有至少一条程序代码的计算机可读存储介质,例如存储有至少一条程序代码的存储器,上述至少一条程序代码由处理器加载并执行,以实现上述实施例中的翻译语料生成方法。例如,该计算机可读存储介质可以是只读内存(Read-Only Memory, ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (20)

1.一种翻译语料生成方法,其特征在于,所述方法包括:
获取待翻译语种的第一内容文本;
根据所述第一内容文本的标题和正文中部分字符,生成所述第一内容文本的摘要;
获取所述第一内容文本的摘要所对应目标语种的机器翻译结果;
根据所述机器翻译结果搜索所述目标语种的搜索结果,从所述搜索结果中选取待选内容文本;
从所述待选内容文本中,选取与所述第一内容文本的内容相似度大于目标阈值的内容文本作为第二内容文本,所述第二内容文本为目标语种,所述待翻译语种与所述目标语种为不同语种;
显示所述第一内容文本和所述第二内容文本;
响应于内容编辑事件,对所述第一内容文本和所述第二内容文本中的任一内容文本进行编辑;
基于编辑后的内容文本,生成所述待翻译语种与所述目标语种之间的翻译语料。
2.根据权利要求1所述的方法,其特征在于,所述显示所述第一内容文本和所述第二内容文本,包括:
在语料生成界面中显示所述第一内容文本和所述第二内容文本,所述语料生成界面中设置有第一编辑区域和第二编辑区域,所述第一编辑区域用于对所述第一内容文本进行编辑,所述第二编辑区域用于对所述第二内容文本进行编辑。
3.根据权利要求1所述的方法,其特征在于,所述基于编辑后的内容文本,生成所述待翻译语种与所述目标语种之间的翻译语料,包括下述任一项:
基于所述第一内容文本和编辑后的第二内容文本,生成所述待翻译语种与所述目标语种之间的翻译语料;或,
基于所述第二内容文本和编辑后的第一内容文本,生成所述待翻译语种与所述目标语种之间的翻译语料;或,
基于编辑后的第一内容文本和编辑后的第二内容文本,生成所述待翻译语种与所述目标语种之间的翻译语料。
4.根据权利要求2所述的方法,其特征在于,所述响应于内容编辑事件,对所述第一内容文本和所述第二内容文本中的任一内容文本进行编辑之前,所述方法还包括下述至少一项:
响应于第一粘贴事件,在所述第一编辑区域内输入所述第一内容文本;
响应于第二粘贴事件,在所述第二编辑区域内输入所述第二内容文本。
5.根据权利要求1所述的方法,其特征在于,所述从所述待选内容文本中,选取与所述第一内容文本的内容相似度大于所述目标阈值的内容文本作为所述第二内容文本,包括:
获取所述第一内容文本的标题所对应目标语种的机器翻译结果;
对于任一待选内容文本,根据所述第一内容文本的标题所对应目标语种的机器翻译结果、所述第一内容文本的摘要所对应目标语种的机器翻译结果、所述任一待选内容文本的标题和摘要,获取所述任一待选内容文本与所述第一内容文本的标题相似度和摘要相似度;
对所述标题相似度和摘要相似度进行加权求和,得到所述任一待选内容文本与所述第一内容文本的内容相似度;
响应于所述任一待选内容文本与所述第一内容文本的内容相似度大于所述目标阈值,将所述述任一待选内容文本作为所述第二内容文本。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在显示所述第一内容文本和所述第二内容文本时,显示所述第一内容文本所对应目标语种的机器翻译结果。
7.根据权利要求2所述的方法,其特征在于,所述响应于内容编辑事件,对所述第一内容文本和所述第二内容文本中的任一内容文本进行编辑之前,所述方法还包括:
对所述语料生成界面进行光学字符识别,得到所述语料生成界面中所述第一内容文本的文本坐标和所述第二内容文本的文本坐标;
基于所述第一内容文本的文本坐标和所述第二内容文本的文本坐标,获取所述第一内容文本的文本信息和所述第二内容文本的文本信息;
基于所述第一内容文本的文本信息和所述第二内容文本的文本信息,在所述语料生成界面的所述第一编辑区域内生成所述第一内容文本,在所述语料生成界面的所述第二编辑区域内生成所述第二内容文本。
8.根据权利要求1所述的方法,其特征在于,所述获取待翻译语种的第一内容文本,包括:
根据起始统一资源定位符URL,迭代爬取所述URL对应的页面上的至少一个URL,所述页面上的内容文本为所述待翻译语种;
对于当前爬取到的URL,对所述当前爬取到的URL进行解析,得到所述当前爬取到的URL对应的内容文本作为所述第一内容文本。
9.根据权利要求1所述的方法,其特征在于,所述基于编辑后的内容文本,生成所述待翻译语种与所述目标语种之间的翻译语料之后,所述方法还包括:
基于所述翻译语料进行训练,得到翻译模型,所述翻译模型用于将所述待翻译语种的内容文本翻译为所述目标语种的内容文本。
10.一种翻译语料生成装置,其特征在于,所述装置包括:
获取模块,用于获取待翻译语种的第一内容文本;
确定模块,用于根据所述第一内容文本的标题和正文中部分字符,生成所述第一内容文本的摘要;获取所述第一内容文本的摘要所对应目标语种的机器翻译结果;根据所述机器翻译结果搜索所述目标语种的搜索结果,从所述搜索结果中选取待选内容文本;从所述待选内容文本中,选取与所述第一内容文本的内容相似度大于目标阈值的内容文本作为第二内容文本,所述第二内容文本为目标语种,所述待翻译语种与所述目标语种为不同语种;
显示模块,用于显示所述第一内容文本和所述第二内容文本;
编辑模块,用于响应于内容编辑事件,对所述第一内容文本和所述第二内容文本中任一内容文本进行编辑;
生成模块,用于基于编辑后的内容文本,生成所述待翻译语种与所述目标语种之间的翻译语料。
11.根据权利要求10所述的装置,其特征在于,所述显示模块用于:
在语料生成界面中显示所述第一内容文本和所述第二内容文本,所述语料生成界面中设置有第一编辑区域和第二编辑区域,所述第一编辑区域用于对所述第一内容文本进行编辑,所述第二编辑区域用于对所述第二内容文本进行编辑。
12.根据权利要求10所述的装置,其特征在于,所述生成模块用于执行下述任一项:
基于所述第一内容文本和编辑后的第二内容文本,生成所述待翻译语种与所述目标语种之间的翻译语料;或,
基于所述第二内容文本和编辑后的第一内容文本,生成所述待翻译语种与所述目标语种之间的翻译语料;或,
基于编辑后的第一内容文本和编辑后的第二内容文本,生成所述待翻译语种与所述目标语种之间的翻译语料。
13.根据权利要求11所述的装置,其特征在于,所述装置还包括下述至少一项:
第一输入模块,用于响应于第一粘贴事件,在所述第一编辑区域内输入所述第一内容文本;
第二输入模块,用于响应于第二粘贴事件,在所述第二编辑区域内输入所述第二内容文本。
14.根据权利要求10所述的装置,其特征在于,所述确定模块用于:
获取所述第一内容文本的标题所对应目标语种的机器翻译结果;
对于任一待选内容文本,根据所述第一内容文本的标题所对应目标语种的机器翻译结果、所述第一内容文本的摘要所对应目标语种的机器翻译结果、所述任一待选内容文本的标题和摘要,获取所述任一待选内容文本与所述第一内容文本的标题相似度和摘要相似度;
对所述标题相似度和摘要相似度进行加权求和,得到所述任一待选内容文本与所述第一内容文本的内容相似度;
响应于所述任一待选内容文本与所述第一内容文本的内容相似度大于所述目标阈值,将所述述任一待选内容文本作为所述第二内容文本。
15.根据权利要求10所述的装置,其特征在于,所述显示模块还用于:
在显示所述第一内容文本和所述第二内容文本时,显示所述第一内容文本所对应目标语种的机器翻译结果。
16.根据权利要求11所述的装置,其特征在于,所述装置还包括:
识别模块,用于对所述语料生成界面进行光学字符识别,得到所述语料生成界面中所述第一内容文本的文本坐标和所述第二内容文本的文本坐标;
所述获取模块还用于基于所述第一内容文本的文本坐标和所述第二内容文本的文本坐标,获取所述第一内容文本的文本信息和所述第二内容文本的文本信息;
所述生成模块还用于基于所述第一内容文本的文本信息和所述第二内容文本的文本信息,在所述语料生成界面的所述第一编辑区域内生成所述第一内容文本,在所述语料生成界面的所述第二编辑区域内生成所述第二内容文本。
17.根据权利要求10所述的装置,其特征在于,所述获取模块用于:
根据起始统一资源定位符URL,迭代爬取所述URL对应的页面上的至少一个URL,所述页面上的内容文本为所述待翻译语种;
对于当前爬取到的URL,对所述当前爬取到的URL进行解析,得到所述当前爬取到的URL对应的内容文本作为所述第一内容文本。
18.根据权利要求10所述的装置,其特征在于,所述装置还包括:
训练模块,用于基于所述翻译语料进行训练,得到翻译模型,所述翻译模型用于将所述待翻译语种的内容文本翻译为所述目标语种的内容文本。
19.一种计算机设备,其特征在于,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至9任一项所述的翻译语料生成方法。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如权利要求1至9任一项所述的翻译语料生成方法。
CN202010207518.8A 2020-03-23 2020-03-23 翻译语料生成方法、装置、计算机设备及存储介质 Active CN111428523B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010207518.8A CN111428523B (zh) 2020-03-23 2020-03-23 翻译语料生成方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010207518.8A CN111428523B (zh) 2020-03-23 2020-03-23 翻译语料生成方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN111428523A CN111428523A (zh) 2020-07-17
CN111428523B true CN111428523B (zh) 2023-09-01

Family

ID=71549094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010207518.8A Active CN111428523B (zh) 2020-03-23 2020-03-23 翻译语料生成方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111428523B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111831816B (zh) * 2020-07-21 2023-06-27 虎博网络技术(上海)有限公司 核心内容处理方法、装置、电子设备和可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007149109A (ja) * 2006-12-22 2007-06-14 Fujitsu Ltd 翻訳支援装置
CN108399166A (zh) * 2018-02-07 2018-08-14 深圳壹账通智能科技有限公司 文本翻译方法、装置、计算机设备和存储介质
CN108845993A (zh) * 2018-06-06 2018-11-20 中国科学技术信息研究所 文本信息的翻译方法、装置及终端设备
CN110175336A (zh) * 2019-05-22 2019-08-27 北京百度网讯科技有限公司 翻译方法、装置和电子设备
CN110532573A (zh) * 2018-12-29 2019-12-03 苏州七星天专利运营管理有限责任公司 一种翻译方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352244B2 (en) * 2009-07-21 2013-01-08 International Business Machines Corporation Active learning systems and methods for rapid porting of machine translation systems to new language pairs or new domains

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007149109A (ja) * 2006-12-22 2007-06-14 Fujitsu Ltd 翻訳支援装置
CN108399166A (zh) * 2018-02-07 2018-08-14 深圳壹账通智能科技有限公司 文本翻译方法、装置、计算机设备和存储介质
CN108845993A (zh) * 2018-06-06 2018-11-20 中国科学技术信息研究所 文本信息的翻译方法、装置及终端设备
CN110532573A (zh) * 2018-12-29 2019-12-03 苏州七星天专利运营管理有限责任公司 一种翻译方法和系统
CN110175336A (zh) * 2019-05-22 2019-08-27 北京百度网讯科技有限公司 翻译方法、装置和电子设备

Also Published As

Publication number Publication date
CN111428523A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
EP3940638A1 (en) Image region positioning method, model training method, and related apparatus
CN110852100B (zh) 关键词提取方法、装置、电子设备及介质
CN111428522B (zh) 翻译语料生成方法、装置、计算机设备及存储介质
CN110471858B (zh) 应用程序测试方法、装置及存储介质
CN109918669B (zh) 实体确定方法、装置及存储介质
CN109189879B (zh) 电子书籍显示方法及装置
CN112749728A (zh) 学生模型训练方法、装置、计算机设备及存储介质
CN111611490A (zh) 资源搜索方法、装置、设备及存储介质
CN111368525A (zh) 信息搜索方法、装置、设备及存储介质
CN111339737B (zh) 实体链接方法、装置、设备及存储介质
CN112995757B (zh) 视频剪裁方法及装置
CN112269853A (zh) 检索处理方法、装置及存储介质
WO2024036616A1 (zh) 一种基于终端的问答方法及装置
CN114357278B (zh) 一种话题推荐方法、装置及设备
CN110555102A (zh) 媒体标题识别方法、装置及存储介质
CN111553163A (zh) 文本相关度的确定方法、装置、存储介质及电子设备
CN110929137B (zh) 文章推荐方法、装置、设备及存储介质
CN113822038B (zh) 一种摘要生成方法和相关装置
CN108416026B (zh) 索引生成方法、内容搜索方法、装置及设备
CN111428523B (zh) 翻译语料生成方法、装置、计算机设备及存储介质
CN112307198A (zh) 一种单文本的摘要确定方法和相关装置
CN112287070A (zh) 词语的上下位关系确定方法、装置、计算机设备及介质
KR20210120203A (ko) 웹 페이지에 기반한 메타데이터 생성방법
CN111597823B (zh) 中心词提取方法、装置、设备及存储介质
CN116431838B (zh) 文献检索方法、装置、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant