CN111881900B

CN111881900B - 语料生成、翻译模型训练、翻译方法、装置、设备及介质

Info

Publication number: CN111881900B
Application number: CN202010625621.4A
Authority: CN
Inventors: 张忱; 黄杰; 袁星宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-01
Filing date: 2020-07-01
Publication date: 2022-08-23
Anticipated expiration: 2040-07-01
Also published as: CN111881900A

Abstract

本申请提供一种语料生成、翻译模型训练、翻译方法、装置、设备及介质，涉及人工智能技术领域，该方法包括：获取目标图像；在所述目标图像中识别出包含第一语种文本和第二语种文本的物体图像区域；所述第一语种文本和所述第二语种文本在所述物体图像区域对应显示；从所述物体图像区域提取所述第一语种文本和所述第二语种文本；根据所述第一语种文本和所述第二语种文本，生成第一语种和第二语种之间的翻译标注语料。

Description

语料生成、翻译模型训练、翻译方法、装置、设备及介质

技术领域

本申请涉及计算机技术领域，尤其涉及人工智能技术领域，提供一种语料生成、翻译模型训练、翻译方法、装置、设备及介质。

背景技术

自然语言处理(Nature Language processing,NLP)广泛地被应用，比如被应用在机器翻译、机器问答等领域。在NLP中，通常是依赖各种人工智能模型进行语言处理，而各模型的处理准确性很大程度上取决于语料，如果语料不够充足，训练得到的模型在应用时效果不佳。为此，如何获取更多的语料成为了NLP领域中亟需解决的问题。

目前，获取语料的方式一般是从网络资源上获取大量文本，但对于某些稀缺语料，在网络资源上搜集到的文本较为稀少，如何获得稀有语种的翻译语料是需要考虑的问题。

发明内容

本申请实施例提供一种语料生成、翻译模型训练、翻译方法、装置、设备及介质，用于提供一种获得翻译标注语料的方法。

一方面，提供一种语料生成方法，包括：

获取目标图像；

在所述目标图像中识别出包含第一语种文本和第二语种文本的物体图像区域；所述第一语种文本和所述第二语种文本在所述物体图像区域对应显示；

从所述物体图像区域提取所述第一语种文本和所述第二语种文本；

根据所述第一语种文本和所述第二语种文本，生成第一语种和第二语种之间的翻译标注语料。

另一方面，提供一种翻译模型训练方法，包括：

获取通过上述任一所述的语料生成方法获得的语料；

利用所述语料训练机器翻译模型，获得已训练的机器翻译模型。

又一方面，一种翻译方法，包括：

获取待翻译文本；

将所述待翻译文本输入到上述任一所述的翻译模型训练方法获得的已训练的机器翻译模型中，获得所述待翻译文本对应的文本翻译结果。

本申请实施例中提供一种语料生成装置，包括：

获取模块，用于获取目标图像；

识别模块，用于在所述目标图像中识别出包含第一语种文本和第二语种文本的物体图像区域；所述第一语种文本和所述第二语种文本在所述物体图像区域对应显示；

提取模块，用于从所述物体图像区域提取所述第一语种文本和所述第二语种文本；

生成模块，用于根据所述第一语种文本和所述第二语种文本，生成第一语种和第二语种之间的翻译标注语料。

在一种可能的实施例中，所述提取模块具体用于：

从与所述第一语种和所述第二语种关联的地区所对应的电子地图中，爬取各坐标点关联的地图街景图像；

将包含第一语种文本以及第二语种文本的地图街景图像确定为目标图像。

在一种可能的实施例中，所述获取模块具体用于：

当地图街景图像包含文本信息的物体分布密度满足设定条件时，以所述地图街景图像对应的坐标点确定为爬取起始点；

根据所述爬取起始点按照道路方向爬取地图街景图像。

在一种可能的实施例中，所述获取模块具体用于针对每个地图街景图像执行如下步骤：

检测地图街景图像中各类物体图像区域；

当地图街景图像中各类物体图像区域中包括第一语种文本以及第二语种文本的物体图像区域时，将街景图像确定为目标图像。

在一种可能的实施例中，所述生成模块具体用于：

发送审核请求，所述审核请求中携带所述地图街景图像、所述第一语种文本、以及所述第二语种文本；

接收确认回复，所述确认回复中携带被确认的所述第一语种文本、以及所述第二语种文本；

将被确认的所述第一语种文本、以及所述第二语种文本，关联保存为翻译标注语料。

本申请实施例中提供一种翻译模型训练装置，包括：

获取模块，用于获取通过上述任一所述的语料生成方法获得的语料；

获得模块，用于利用所述语料训练机器翻译模型，获得已训练的机器翻译模型。

本申请实施例中提供一种翻译装置，包括：

获取模块，用于获取待翻译文本；

获得模块，用于将所述待翻译文本输入到上述任一所述的翻译模型训练方法生成的已训练的机器翻译模型中，获得所述待翻译文本对应的文本翻译结果。

本申请实施例提供一种计算机设备，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现如一方面、另一方面或又一方面中任一项所述的方法。

本申请实施例提供一种存储介质，所述存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如一方面、另一方面或又一方面中任一项所述的方法。

由于本申请实施例采用上述技术方案，至少具有如下技术效果：

本申请实施例中，直接从目标图像中获得两类语种分别对应的文本，并根据两类语种分别对应的文本，获得翻译标注语料，提供了一种获得翻译语料的新思路。且，本申请实施例中以图像作为语料的来源，由于图像上包含的文本内容的类型多样化，这使得获得的翻译标注语料类型更丰富，丰富的翻译标注语料有利于提高利用翻译标注语料训练出的翻译模型的准确性。且，本申请实施例能够基于图像同时获得至少两种语种的文本，有利于提高生成语料的效率。

附图说明

图1为本申请实施例提供的一种语料处理系统的结构示意图；

图2为本申请实施例提供的一种语料生成方法的应用场景图；

图3为本申请实施例提供的一种语料生成方法的原理示意图；

图4为本申请实施例提供的一种语料生成方法的流程示意图；

图5为本申请实施例提供的一种电子地图的示例图；

图6为本申请实施例提供的一种街景图像列表；

图7为图6的街景图像列表中的一个街景图像示例；

图8为图6的街景图像列表中的另一个街景图像示例；

图9为本申请实施例提供的一种识别文字区域的蒙语和汉语的结果示例图；

图10为本申请实施例提供的一种蒙语字库示例图；

图11为本申请实施例提供的第一语种文本和第二语种文本的展示示例图；

图12为本申请实施例提供的一种翻译模型训练方法的过程示例图；

图13为本申请实施例提供的一种翻译方法的流程示意图；

图14为本申请实施例提供的一种语料生成装置的结构示意图；

图15为本申请实施例提供的一种翻译模型训练装置的结构示意图；

图16为本申请实施例提供的一种翻译装置的结构示意图；

图17为本申请实施例提供的计算机设备的结构示意图。

具体实施方式

为了更好的理解本申请实施例提供的技术方案，下面将结合说明书附图以及具体的实施方式进行详细的说明。

为了便于本领域技术人员更好地理解本申请的技术方案，下面对本申请涉及的名词进行介绍。

1、人工智能技术：是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。在本申请实施例中，生成翻译语料过程中，会涉及到从图像中识别语种，以及识别各语种对应的文本的内容，具体可以运用到光学字符识别(Optical CharacterRecognition，OCR)技术等。

2、OCR：是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，用字符识别方法将形状翻译成计算机文字的过程。比如针对印刷体字符，可以采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。OCR技术包括两个任务：文本的检测和文本的识别。

3、语种：本申请是指图像中文本所属的语种大类，比如图像包括汉语、英语和蒙语等。在本申请实施例中，可以通过特定语种的OCR服务识别图像中的文本，如果该OCR服务能够识别出对应的文本，则表示该图像中存在该特定语种的文本。或者人工确定图像中包括的语种类别。或者通过识别图像中文字的轮廓形状等，检测图像包括的语种类别。第一语种和第二语种泛指需要获得的语料对应的语种。第一语种的类型和第二语种的类型可以任意设定。第一语种比如蒙语，第二语种比如中文。

5、语种文本：是指在图像中语种对应的文本，比如第一语种文本是指第一语种对应的文本，第二语种文本是指第二语种对应的文本。

6、机器翻译模型：泛指用于实现文本翻译的人工智能模型，比如可以采用自回归的模型，或者非自回归的模型。自回归在机器翻译中是指根据前文的翻译结果确定当前词汇翻译结果的方式，即第i个时刻的变量的预测结果是通过第i-1，i-2，……，i-k个时刻等前k个时刻的该变量的表现预测得到的，这一特性就是自回归特性。相对的，非自回归是指独立确定每个词汇的翻译结果的方式。

7、物体：是指从图像中识别出的物体，物体泛指图像中的各类目标，比如图像中的车辆、或广告牌。

下面对本申请实施例的设计思想进行介绍。

相关技术中，将直接从网络上爬取的文本作为语料。一来，而言，网上可以爬取到的稀有语种的文本少，文本少，训练出的模型准确性较低。二来，网络上文章中的文本内容等较为专业，因此利用这些文本训练出的模型很难适用于日常翻译，即模型的泛化能力差。

鉴于此，本申请实施例提供了一种语料生成方法，该方法可以用于生成各类语种对应的翻译标注语料。本申请实施例的技术思路是：从图像中获取第一语料文本，以及第二语种文本，将第一语料文本和第二语种文本关联保存，从而获得翻译标注语料，相较于相关技术直接获取网络资源中的文本作为翻译标注语料的方式，本申请实施例提供了一种生成翻译语料的新思路。且，图像上的文本信息包括日常用语，因此可以利用该方法获得的翻译语料也包括日常用语，进而利用该翻译语料训练出的翻译模型泛化能力更强，在日常翻译上表现更好。且，本申请实施例中能够从图像一并获得第一语料文本以及对应的第二语料文本，可以提升获得翻译标注语料的效率。

进一步地，本申请实施例中提供了一种获取目标图像的方式，具体是爬取电子地图中各坐标点关联的地图街景图像，获得的地图街景图像包括文本信息的可能性相较于从网络上随机查找的图像包含各类语种的文本的概率更大，即本申请实施例中获取目标图像的方式，简化了了从网络中大量图像中筛选目标图像的过程，提升获得目标图像的效率。且，以地图街景图像获得翻译标注语料，由于地图街景图像包括大量的日常用语，因此翻译标注语料包含更多的日常用语，有利于提高利用翻译语料训练的翻译模型的准确性。

在一种可能的实施例中，可以从第一语种和第二语种关联的地区对应的电子地图中，爬取地图街景图像，由于在第一语种和第二语种关联的地区更为广泛地使用第一语种和第二语种，因此从第一语种和第二语种关联的地区获取地图街景图像，这样获取得到的地图街景图像包括第一语种文本和第二语种文本的概率越大，能够快速获得第一语种文本或第二语种文本对应的图像。

在一种可能的实施例中，可以以包含文本信息的物体分布密度满足设定条件的地图街景图像对应的坐标点作为爬取起始点，这样一来，爬取起始点所关联的地图街景图像包含了大量具有文本信息的图像，即一开始爬取就能获得包含文本信息的图像，利于迅速地获得目标图像，也有利于提高获得翻译标注语料的效率。

基于上述设计思想，下面对本申请实施例的语料生成方法的应用场景进行介绍。该语料生成方法可以由语料生成设备执行，语料生成设备具体可以通过用户端设备实现，或服务端设备实现。

其中，用户端设备可以是移动终端、固定终端或便携式终端，例如移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还可预见到的是，语料生成设备能够支持任意类型的针对用户的接口设备(例如可穿戴设备)等。服务端设备可以是各种服务提供的服务器、大型计算设备等。服务器可以是一个或多个服务器。服务器也可以是实体服务器或虚拟服务器等。

请参照图1，表示一种语料处理系统的结构示意图。该语料处理系统包括语料生成设备110、翻译模型训练设备120、翻译设备130、第一终端140、以及数据库150。翻译模型训练设备120可以是用户端设备或服务端设备，翻译设备130可以是用户端设备或服务端设备。该第一终端140与用户相对应。

语料生成设备110获取目标图像，从目标图像中获得翻译标注语料，并将翻译标注语料存储在数据库150中，具体获得翻译标注语料的过程在下文中详述。

翻译模型训练设备120可以从数据库150中获取翻译语料，利用翻译语料训练机器翻译模型，训练得到机器翻译模型之后，可以将已训练的机器翻译模型发送给翻译设备130。

当第一终端140响应于用户输入的待翻译文本，将待翻译文本的内容发送给翻译设备130，翻译设备130利用已训练的机器翻译模型翻译待翻译文本，将待翻译文本翻译成特定语种的文本。

其中，语料生成设备110、翻译模型训练设备120、翻译设备130中的任意两种设备可以分别通过不同的设备实现，或者通过同一个设备实现。比如语料生成设备110、翻译模型训练设备120、翻译设备130分别通过三个服务器实现，或者比如语料生成设备110、翻译模型训练设备120、翻译设备130通过一个服务器中运行的三个服务分别实现。

请参照图2，表示一种语料生成方法的应用场景示例图，该场景中包括服务器210和第二终端220。图2中服务器210为前文以语料生成设备110的一种示例。第二终端220可以与工作人员对应。

第二终端220可以通过网页或客户端等访问服务器210，服务器210获得第一语种文本，以及第二语种文本之后，可以向第二终端220反馈第一语种文本和第二语种文本，第二终端220响应于工作人员的确认操作，获得工作人员确认后的第一语种文本和第二语种文本，第二终端220将确认后的第一语种文本和第二语种文本反馈给服务器210，服务器210根据确认后的第一语种文本以及第二语种文本，获得翻译标注语料。

基于上述图1～图2论述的应用场景，下面对本申请实施例的语料生成方法的原理进行介绍。请参照图3，为语料生成方法的原理示意图，图3中是以语料生成设备110通过服务器210实现为例，该方法的原理过程包括：

S301，服务器210获取图像。

服务器210可以从网络资源获取图像，比如从电子地图关联的数据中爬取图像，或者通过第二终端220获取工作人员输入的图像等。下面以服务器210从电子地图关中爬取图像为例，对获取图像的方式进行介绍：

服务器210可以嵌入有街景地图脚本，运行该街景地图脚本，或者服务器210通过外部的街景地图脚本，从电子地图中获取各坐标点的坐标位置，坐标位置包括坐标点的经度和纬度，并根据该坐标点的坐标位置向电子地图对应的后台发送获取请求。该获取请求可以包括根据坐标点的坐标位置生成的panoID，电子地图的后台响应于该获取请求，每个坐标点均对应有一个或多个街景图像，因此电子地图的后台可以向服务器210返回各坐标点关联的街景信息。

如果某个坐标点没有地图街景图像，电子地图的后台返回无效图像。该街景信息包括一个或多个地图街景图像，还可以包括各地图街景图像的拍摄时间等，还可以包括该坐标点附近坐标点的panoID等。

以此类推，在爬取每个坐标点关联的地图街景图像后，服务器210可以获得各坐标点关联的地图街景图像。

在爬取图像的过程中，为了避免遗漏电子地图中某些坐标点的街景图像，在本申请实施例中，服务器210可以以特定的坐标点为爬取起始点，沿地图中的道路方向依次爬取电子地图中各坐标点关联的地图街景图像，道路方向比如可以是沿道路逆时针方向或沿道路顺时针方向等。

在本申请实施例中，服务器210可以从第一语种和第二语种关联的地区的电子地图中，爬取地图街景图像。语种关联的地区泛指与语种相关的地区包括以语种为母语的地区或使用该语种的地区中的一种或两种。从语种关联的地区爬取地图街景图像，获得的地图街景图像包含目标语种的概率更大，该方式可以更高效且更有针对性地获取得到包括第一语种和第二语种的图像。

除了限定爬取范围，爬取起始点也会影响获得目标图像的效率，在本申请实施例中，可以将包含文本信息的物体分布密度大于设定条件的地图街景图像对应的坐标点确定为爬取起始点，设定条件可以是分布密度满足分布密度阈值。分布密度可以理解为地图街景图像包括特定物体的数量满足数量阈值，特定物体泛指包含文本信息的物体。比如地图街景图像包含特定物体的数量越多，表示该地图街景图像的物体分布密度越大。本申请实施例中以物体分布密度的地图街景图像对应的坐标点为爬取起始点，因此在开始爬取得到包含文本信息的图像概率更大，更利于快速地获得图像。

S302，服务器210获取目标图像。

无论服务器210在获得多个图像之后，这多个图像可能包含第一语种文本和第二语种文本，也可能并不包括第一语种文本或第二语种中的一种或两种，因此服务器210可以过滤多个图像，获得目标图像。

服务器210可以检测从多个图像中筛选出包含文本信息的候选图像，进而确定候选图像中确定出第一语种文本或第二语种文本的目标图像，将包含第一语种文本和第二语种文本的候选图像确定为目标图像。或者服务器210可以从多个图像直接识别包含第一语种文本和第二语种文本的目标图像。

如果图像包括第一语种文本和第二语种文本，则将该图像确定为目标图像。如果图像中不包括第一语种和第二语种中的一种或两种，则不对该图像进行后续处理。图像包括第一语种是指图像中包括第一语种的文本，图像包括第二语种是指图像包括第二语种对应的文本。

下面对服务器210过滤多个图像，获得目标图像的方式进行示例介绍：

方式一：

S1.1：服务器210识别出图像中的各类物体图像区域；

S1.2：识别图像中各类物体图像区域中是否包括第一语种文本和第二语种文本的物体图像区域，将包含第一语种文本和第二语种文本的图像确定为目标图像。

服务器210可以通过第一检测模型，从目标图像中识别出各类物体图像区域，再确定各类物体图像区域是否包括第一语种和第二语种的目标物体图像区域，如果存在一个或多个物体图像区域包括第一语种文本和第二语种文本，则将该图像确定为目标图像。

其中，第一检测模型可以利用样本图像进行训练得到的，样本图像包括标注了对应物体图像区域的样本图像，将样本图像输入目标检测模型，从而获得目标检测模型输出的目标检测结果，根据目标检测结果以及该样本图像是否包含物体的真实结果，调整第一检测模型的模型参数，直到第一检测模型的损失函数满足目标损失，获得已训练的目标检测模型。

第一检测模型的模型结构可以有多种，比如区域候选网络(Region ProposalNetwork Region Proposal，RPN)、Faster R-CNN等，本申请不限制目标检测模型的结构等。第一检测模型可以是服务器210预存的检测模型，也可以是调用的外部接口以实现检测功能。

在获得各类物体图像区域之后，检测各物体图像区域中文本的轮廓，根据文本的轮廓确定文本是否包括第一语种和第二语种，如果检测物体区域中的文本轮廓与第一语种的文本轮廓相似度小于阈值，则确定该目标图像中不包括第一语种。如果检测物体区域中的文本轮廓与第二语种的文本轮廓相似度小于阈值，则确定该目标图像中不包括第二语种。如果检测物体区域中的文本轮廓与第一语种的文本轮廓相似度大于或等于阈值，则确定该目标图像包括第一语种。如果检测物体区域中的文本轮廓与第一语种的文本轮廓相似度大于或等于阈值，则确定该目标图像中包括第二语种。

如果物体区域对应包括第一语种和第二语种，则确定该物体图像区域为目标物体图像区域。另外还可以同时从该物体图像区域中识别出第一语种文本和第二语种文本。

需要说明的是，由于爬取的为地图街景图像，如果该地图街景图像包括第一语种文本和第二语种文本，那么通常第一语种文本和第二语种文本是对应显示在该地图街景图像上的，对应显示可以理解为第一语种文本与第二语种文本是相同含义的文本内容分别通过两种不同语种呈现的文本。对应显示比如物体图像区域中第一行显示中文，第二行显示该中文文本对应的蒙语文本。

例如，当地图街景图像的各类物体图像区域包括第一语种文本和第二语种文本的物体图像区域时，则将地图街景图像确定为目标图像。包含第一语种和第二语种的目标物体图像区域例如广告牌、广告标语、以及路标等。

或者例如，请继续参照图3，服务器210获得a中所示的多张图像。检测到图像300包括蒙语和汉语，因此服务器210将a中所示的图像300确定为目标图像。

进一步的，为了便于识别包含第一语种和第二语种的物体图像区域，服务器210可以对不同类别的物体图像区域采用不同的标识的检测框进行表示，服务器210在标注出物体图像区域中的检测框之后，可以快速地根据不同标识的检测框判断街景图像是否包含文本信息的物体图像区域。

例如，包含文本信息的广告牌图像区域采用蓝色的检测框标识，人物图像区域采用红色的检测框标识，车辆图像区域采用黄色的检测框标识，服务器210确定某个街景图像包括蓝色的检测框或黄色的检测框，则确定该地图街景图像包括文本信息，进而再确定物体图像区域是否包括对应的第一语种文本和第二语种文本。如果物体图像区域包括第一语种文本和第二语种文本，则将该地图街景图像确定为目标图像。

方式二：

服务器210可以利用第二检测模型，检测到地图街景图像包括文本信息的物体图像区域，且确定该物体图像区域包含第一语种文本和第二语种文本，则将该地图街景图像确定为目标图像。

该第二检测模型用于检测图像中包含文本信息的物体，比如用于检测图像中广告牌图像区域。该第二检测模型直接用于检测包含了文本信息的物体，其训练过程可以参照方式一论述的训练第一检测模型的方法，此处不再赘述。识别物体图像区域是否包括第一语种和第二语种的方式可以参照方式一的论述内容，此处不再赘述。

方式一和方式二的区别在于，方式一的第一检测模型是识别各类物体图像区域，而方式二中的第二检测模型是识别包含文本信息的物体图像区域，方式二相较于方式一确定图像包括第一语种文本和第二语种文本更为简单，但方式一识别出各类物体图像区域后，再判断每类物体图像区域是否包含第一语种和第二语种，该方式识别更为全面。

方式三：

服务器210可以是通过第一语种OCR识别图像，如果从图像中识别到第一语种文本，则确定该图像包括第一语种文本。以及服务器210可以是通过第二语种OCR识别图像，如果从图像中识别到第二语种文本，则确定该图像包括第二语种文本。

方式四：

服务器210根据工作人员进行的筛选操作，获得目标图像。

具体的，服务器210将获得的多个图像发送给第二终端220，第二终端220显示多个图像后，工作人员可以通过第二终端220进行筛选操作，第二终端220根据工作人员的筛选操作，确定工作人员筛选的目标图像，并将目标图像反馈给服务器210。

S303，服务器210获得第一语种文本。

为了提高图像处理的准确性，在本申请实施例中可以对目标图像进行像素插值，提升目标图像的清晰度，对目标图像进行二值化处理，获得二值化后的目标图像，利用二值化后的目标图像识别目标图像中的第一语种文本。

通过上述方式一或方式二获得目标图像时，可以从包含第一语种文本和第二语种文本的物体图像区域，直接识别出第一语种文本。另外，在识别物体图像区域中包括第一语种时，可以识别物体图像区域中包含的第二语种。

具体的，在确定物体图像区域包括第一语种的同时，还可以识别出第一语种在物体图像区域对应的第一文本框，从第一文本框中识别出第一语种文本。第一文本框是指第一语种对应的文本在文本区域中的位置框，当物体图像区域包括间隔大于预设距离的第一语种对应的文本时，可能会从该物体图像区域中识别出多个第一文本框。同理，在识别出第一文字框时，服务器210可以识别物体图像区域中的第二语种对应的第二文字框。

或者，通过上述方式三或方式四获得目标图像时，服务器210可以通过第一语种对应的OCR服务检测识别物体区域中的文本，如果该OCR服务检测到文本，表示该目标图像中包括第一语种，还可以同时获得该第一语种对应的第一语种文本。

作为一种实施例，在获得第一语种文本之后，可以将第一语种文本与第一语种对应的文字库进行匹配，获得匹配出的第一语种文本，以提升获得的第一语种文本的准确性。

作为一种实施例，可以将第一语种文本反馈给第二终端220，第二终端220响应于工作人员的调整操作，获得调整后的第一语种文本，并将该调整后的第一语种文本发送给服务器210。

继续以图3为例，服务器210从图像300中物体图像区域中识别出第一语种文本310，该第一语种文本310具体如图3中的蒙语“Шарсанталх”。

S304，服务器210获得第二语种文本。

当目标图像包括第二语种时，可以按照获取第一语种对应的第一语种文本的方式，获取物体图像区域中的第二语种对应的第二语种文本。

由于物体图像区域中包括可能还包括其他语种，因此为了更准确地从物体图像区域中识别到各语种对应的语种文本，在本申请实施例中，可以识别物体图像区域的包含的语种的数量，识别语种的数量可以对通过语种OCR或检测文本的轮廓等方式进行，此处不再赘述。为了减少识别区域的大小，前文已识别出物体图像区域对应的第一文本框，因此可以从物体图像区域中除了第一文本框之外的区域识别第二语种文本。在某些情况下，比如在获得第一语种文本时，已经识别出了物体图像区域包含的语种，则无需再次识别包含其他语种的数量。

在识别语种的数量的同时，可以识别出其它语种对应的文本框。再从其它语种对应的文本框中分别识别出其它语种文本。其它语种是指除了第一语种和第二语种之外的语种。

或者，利用用于识别第二语种的OCR服务识别物体图像区域中第二语种文本，如果该OCR服务识别出对应的第二语种文本，则表示物体图像区域包含该第二语种文本。

在一种可能的情况下，图像包括第一语种和第二语种中一种，比如图像包括第一语种，图像不包括第二语种，在本申请实施例中，服务器210可以向第二终端220发送翻译请求，该翻译请求包括第一语种文本。第二终端220响应于工作人员输入的第一语种文本对应的第二语种文本，获得第二语种文本，并将第二语种文本发送给服务器210，服务器210对应获得第二语种文本。

由于服务器210获得的第一语种文本可能不准确，因此上述的翻译请求还可以包括物体图像区域，以便工作人员能够根据物体图像区域翻译获得更为准确的第二语种文本。

上述是以获得一种第二语种文本为例，如果物体图像区域包含其它语种，服务器210按照上述任一方式，可以获得每种其它语种对应的其它文本。

为了保证第一语种文本和第二语种文本的准确性，服务器210可以向第二终端220发送审核请求，该审核请求包括物体图像区域、第一语种文本以及第二语种文本，第二终端220可以根据工作人员进行的修改操作，获得调整后的第一语种文本和第二语种文本，并将调整后的第一语种文本或第二语种文本发送给服务器210。

或者，第二终端220可以响应于工作人员进行的确认操作，将确认后的第一语种文本和第二语种文本发送给服务器210。本申请实施例中，由人工再次确认，可以提高后续生成的翻译标注语料的准确性。

例如，继续参照图3，服务器210从目标图像300中识别出第二语种的第二语种文本320，具体如图3中所示的“烤肉”。

作为一种实施例，S303和S304的步骤顺序可以是任意的。

S305，服务器210生成翻译标注语料。

在获得第一语种文本和第二语种文本之后，服务器210可以将第一语种文本和第二语种文本进行关联保存，以获得翻译标注语料。

为了便于后期使用，服务器210可以以特定形式存储翻译语料。特定形式比如键值形式，以第一语种文本为键，以第二语种文本为值。或者可以以第二语种文本为键，以第一语种文本为值。

例如，继续参照图3，服务器210将第一语种文本和第二语种文本进行关联，获得如图3所示的“烤肉--Шарсанталх”的翻译标注语料。

为了更清楚地说明本申请实施例的技术方案，下面对本申请实施例涉及的语料生成方法进行示例介绍。请参照图4，为语料生成方法的流程示意图，该方法包括：

S401，服务器210获取爬取起始点。

获取爬取起始点的相关内容可以参照前文论述的内容，此处不再赘述。以第一语种为蒙语，第二语种为汉语为例对获取爬取起始点的进行举例说明：

服务器210确定呼和浩特与蒙语相关，因此从呼和浩特对应的电子地图中爬取图像。服务器210确定将呼和浩特的商业步行街地区中包含文本的物体的分布密度大，因此可以将其作为爬取起始点，具体如图5所示的地图，确定将图5中圆圈所示的坐标点作为爬取起始点。

S402，服务器210运行街景地图脚本。

服务器210运行街景地图脚本，以图5中圆圈的光明大街所示的坐标点开始，沿图5中的直线爬取各坐标点关联的地图街景图像，服务器210依次获得各坐标点对应的地图街景图像。请参照图6，表示获得的地图街景图像列表，该地图街景图像列表包括各地图街景图像的名称、地图街景图像所属的地区标识、以及地图街景图像的类型。

S403，服务器210爬取地图街景图像。

例如，图6中所示的地图街景图像列表中包括如图7、图8分别所示的两张地图街景图像。

S404，服务器210过滤地图街景图像。

服务器210对地图街景图像进行筛选，获得包含文本的地图街景图像，包含第一语种和第二语种的地图街景图像为目标图像的一种示例。

服务器210分别检测图7和图8中的各类物体，获得如图7中所示的各种检测框，以及图7中所示的各种检测框，服务器210确定图7和图8中均包括包含第一语种文本和第二语种文本的物体，将图7和图8所示的地图街景图像确定为目标图像。

S405，服务器210对地图街景图像进行二值化处理。

S406，通过第一语种OCR，获得第一语种文本。

例如，服务器210可以通过蒙语OCR服务识别出图8中物体图像区域中的蒙语。

例如，服务器210通过蒙语OCR，识别出物体图像区域中的蒙语，具体识别结果如图9所示。

S407，与第一语种字库进行匹配。

例如，将识别出的蒙语与图10所示的蒙文字库进行匹配，从而获得第一语种文本。

S408，通过第二语种OCR，获得第二语种文本。

例如，服务器210可以通过汉语OCR服务识别出图8中的物体图像区域中的汉语，获得汉语文本。

作为一种实施例，S406和S408的执行顺序可以是任意的。

继续参照图9，服务器210可以通过汉语OCR识别出物体图像区域中的汉语，汉语的识别结果如图9中的“刘纪枣西医诊所”。

S409，根据人工进行的校准操作，获得翻译标注语料。

服务器210将第一语种文本、第二语种文本和物体图像区域发送给第二终端220，第二终端220显示该第一语种文本、第二语种文本以及物体图像区域，由人工进行手动调整，例如对图11中文本区域一的内容进行修改，与右侧文本区域二内容对应，第二终端220响应于该修改操作，获得调整后的文本区域一和文本区域二，并将其发送给服务器210，服务器210根据人工调整后的第一语种文本、第二语种文本之后，获得翻译标注语料。

基于同一发明构思，本申请实施例提供一种翻译模型训练方法，该方法可以由前文论述的翻译模型训练设备120执行，请参照图12，该方法包括：

S1201，获取翻译标注语料。

翻译模型训练设备120可以通过前文论述任一的语料生成方法获得翻译标注语料，或者是通过语料生成设备110获得翻译标注语料。翻译标注语料包括第一语种对应的第一语种文本，以及第二语种对应的第二语种文本。

S1202，训练机器翻译模型。

将翻译语料中任一语种对应的第一文本输入至机器翻译模型，获得机器翻译模型输出的另一类语种的预测翻译结果。

如果第一语种为机器翻译模型的输入语种，那么第二语种机器翻译模型的翻译结果语种，如果第二语种为机器翻译的输入语种，那么第二语种作为机器翻译模型的翻译结果语种。

根据预测翻译结果，以及所述翻译语料中与第一文本对应的另一类语种的第二文本，调整机器翻译模型的模型参数，直到机器翻译模型收敛，获得已训练的机器翻译模型。

机器翻译模型收敛可以是机器翻译模型的学习率达到预设值，或者机器翻译模型的损失函数收敛等。比如可以根据机器翻译模型的预测翻译结果，以及第一文本对应的第二文本构建损失函数，机器翻译模型每输出一次，对应能获得该损失函数的结果，根据该损失函数的结果调整机器翻译模型的模型参数，直到机器翻译模型的损失函数收敛，获得已训练的机器翻译模型。

作为一种实施例，可以以第二语种对应文本输入至机器翻译模型，机器翻译模型输出第一语种对应的翻译结果，训练机器翻译模型，获得该机器翻译模型的第一类模型参数。并以第一语种对应文本输入至机器翻译模型，机器翻译模型输出第二语种对应的翻译结果，训练机器翻译模型，获得机器翻译模型的第二类模型参数。机器翻译模型可以利用第一类模型参数实现第二语种转换为第一语种的翻译功能，机器翻译模型可以利用第二类模型参数实现第一语种转换为第二语种的翻译功能。

基于同一发明构思，本申请实施例提供一种翻译方法，该方法可以由前文论述的翻译设备130执行，请参照图13，该方法包括：

S1301，第一终端140响应于输入操作，获得待翻译文本，生成翻译请求。

该指定语种可以是前文论述的第一语种或第二语种中的任意一种。翻译请求包括待翻译文本。该翻译请求还可以包括指定的需要翻译成的指定语种。如果翻译设备130默认是从一种语种翻译为指定语种，那么第一终端140将默认的语种作为本次翻译的指定语种。

S1302，第一终端140向翻译设备130发送翻译请求。

S1303，翻译设备130利用机器翻译模型，获得待翻译文本对应的指定语种的文本翻译结果。

翻译设备130通过前文论述的方法获得机器翻译模型，或者可以从翻译模型训练设备120获得机器翻译模型的模型参数。

S1304，翻译设备130将文本翻译结果发送给第一终端140。

第一终端140接收并显示该文本翻译结果，以便用户查看翻译结果。

基于同一发明构思，本申请实施例中提供一种语料生成装置，该语料生成装置相当于设置在前文论述的语料生成设备110中，或相当于设置在前文论述的服务器210中，请参照图14，该语料生成装置1400包括：

获取模块1401，用于获取目标图像；

识别模块1402，用于在所述目标图像中识别出包含第一语种文本和第二语种文本的物体图像区域；所述第一语种文本和所述第二语种文本在所述物体图像区域对应显示；

提取模块1403，用于从所述物体图像区域提取所述第一语种文本和所述第二语种文本；

生成模块1404，用于根据所述第一语种文本和所述第二语种文本，生成第一语种和第二语种之间的翻译标注语料。

在一种可能的实施例中，提取模块1403具体用于：

从所述物体图像区域中分别识别出所述第一语种文本对应的第一文本框，以及所述第二语种文本对应的第二文本框；

从第一文本框中识别得到第一语种文本，以及从第二文本框中识别得到第二语种文本。

在一种可能的实施例中，获取模块1401具体用于：

从与第一语种和第二语种关联的地区所对应的电子地图中，爬取各坐标点关联的地图街景图像；

在一种可能的实施例中，获取模块1401具体用于：

当地图街景图像包含文本信息的物体分布密度满足设定条件时，以地图街景图像对应的坐标点确定为爬取起始点；

根据爬取起始点按照道路方向爬取地图街景图像。

在一种可能的实施例中，获取模块1401具体用于针对每个街景图像执行如下步骤：

检测地图街景图像中各类物体图像区域；

在一种可能的实施例中，生成模块1404具体用于：

发送审核请求，审核请求中携带地图街景图像、第一语种文本、以及第二语种文本；

接收确认回复，确认回复中携带被确认的第一语种文本、以及第二语种文本；

将被确认的第一语种文本、以及第二语种文本，关联保存为翻译标注语料。

基于同一发明构思，本申请实施例提供一种翻译模型训练装置，该翻译模型训练装置相当于设置在前文论述的翻译模型训练设备120中，请参照图15，该翻译模型训练装置1500包括：

获取模块1501，用于获取通过上述的任一语料生成方法获得的语料；

获得模块1502，用于利用语料训练机器翻译模型，获得已训练的机器翻译模型。

基于同一发明构思，本申请实施例提供一种翻译装置，该翻译装置相当于设置在前文论述的翻译设备中，请参照图16，该翻译装置1600包括：

获取模块1601，用于获取待翻译文本；

获得模块1602，用于将待翻译文本输入到上述的任一翻译模型训练方法的已训练的机器翻译模型中，获得待翻译文本对应的文本翻译结果。

基于同一发明构思，本申请实施例还提供了一种计算机设备。该计算机设备相当于前文论述的服务器。

请参照图17，计算机设备1700以通用计算机设备的形式表现。计算机设备1700的组件可以包括但不限于：至少一个处理器1710、至少一个存储器1720、连接不同系统组件(包括处理器1710和存储器1720)的总线1730。

总线1730表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器1720可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1721和/或高速缓存存储器1722，还可以进一步包括只读存储器(ROM)1723。存储器1720还可以包括具有一组(至少一个)程序模块1725的程序/实用工具1726，这样的程序模块1725包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。处理器1710用于执行存储器1720存储的程序指令等实现前文论述的任一语料生成方法、任一翻译模型训练方法或任一翻译方法，还可以用于实现图14～图16中任一论述的装置的功能。

计算机设备1700也可以与一个或多个外部设备1740(例如键盘、指向设备等)通信，还可与一个或者多个使得终端能与计算机设备1700交互的设备通信，和/或与使得该计算机设备1700能与一个或多个其它设备进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(I/O)接口1750进行。并且，计算机设备1700还可以通过网络适配器1760与一个或者多个网络(例如局域网(LAN)、广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1760通过总线1730与用于计算机设备1700的其它模块通信。应当理解，尽管图中未示出，可以结合计算机设备1700使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

基于同一发明构思，本申请实施例提供一种存储介质，所述存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行前文论述的任一语料生成方法、任一翻译模型训练方法或任一翻译方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

基于同一发构思，本申请实施例提供一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任一语料生成方法、任一翻译模型训练方法或任一翻译方法的各种可选实现方式中提供的方法。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种语料生成方法，其特征在于，包括：

将包含第一语种文本以及第二语种文本的地图街景图像确定为目标图像；

2.如权利要求1所述的方法，其特征在于，所述从所述物体图像区域提取所述第一语种文本和所述第二语种文本，包括：

从所述第一文本框中识别得到第一语种文本，以及从所述第二文本框中识别得到第二语种文本。

3.如权利要求1所述的方法，其特征在于，所述从与所述第一语种和所述第二语种关联的地区所对应的电子地图中，爬取各坐标点关联的地图街景图像，包括：

根据所述爬取起始点按照道路方向爬取地图街景图像。

4.如权利要求1或3所述的方法，其特征在于，所述将包含第一语种文本以及第二语种文本的地图街景图像确定为目标图像，包括针对每个地图街景图像执行如下步骤：

检测地图街景图像中各类物体图像区域；

5.如权利要求1～3中任一项所述的方法，其特征在于，根据所述第一语种文本和所述第二语种文本，生成第一语种和第二语种之间的翻译标注语料，包括：

6.一种翻译模型训练方法，其特征在于，包括：

获取通过权利要求1～5任一所述的方法获得的语料；

7.一种翻译方法，其特征在于，包括：

获取待翻译文本；

将所述待翻译文本输入到如权利要求6所述的已训练的机器翻译模型中，获得所述待翻译文本对应的文本翻译结果。

8.一种语料生成装置，其特征在于，包括：

获取模块，用于从与第一语种和第二语种关联的地区所对应的电子地图中，爬取各坐标点关联的地图街景图像，以及将包含第一语种文本以及第二语种文本的地图街景图像确定为目标图像；

9.如权利要求8所述的装置，其特征在于，所述提取模块具体用于：

10.一种计算机设备，其特征在于，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现如权利要求1～5或6或7中任一项所述的方法。

11.一种存储介质，其特征在于，所述存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如权利要求1～5或6或7中任一项所述的方法。