CN108256428A

CN108256428A - 实物翻译方法及移动终端、服务器

Info

Publication number: CN108256428A
Application number: CN201711375238.2A
Authority: CN
Inventors: 白椿山; 陈烨锦; 刘宏坤
Original assignee: Goertek Inc
Current assignee: Goertek Inc
Priority date: 2017-12-19
Filing date: 2017-12-19
Publication date: 2018-07-06

Abstract

本发明公开了一种实物翻译方法及移动终端、服务器，该方法包括：获取待翻译图像；识别所述待翻译图像中存在实物的实物区域及所述实物区域对应的实物类别；执行在所述待翻译图像的所述实物区域所在位置、提供对应实物类别的翻译标注的操作。根据本发明方法，用户可以通过采集场景图像获取图像中实物的翻译标注，而且在图像中存在两个以上实物的情况下可以在实物所在位置提供翻译标注，提高了语言翻译的实时性、灵活性和准确性。

Description

实物翻译方法及移动终端、服务器

技术领域

本发明涉及数字图像处理领域，更具体地，涉及一种实物翻译方法、一种移动终端、及一种服务器。

背景技术

随着经济全球化和互联网时代的发展，克服语言障碍成为国际社会共同面对的挑战，机器文本翻译凭借其自身的实用性和经济性为语言的交流和发展扫除了一些障碍，堪称语言发展史上的里程碑，广受欢迎。随着科技的进步，机器文本翻译变得更加智能化和普及化，方便了人们在不同语种之间进行信息的转换和摄取，从而得到了多数人的认可。

但是，机器文本翻译越来越面临着场景和时间局限的问题，缺乏一定的灵活性。随着数字图像处理技术的发展，实物翻译成为了很多人进一步的需求，因此，非常有必要提供一种精确的实物翻译方法。

发明内容

本发明实施例的一个目的是提供一种通过采集图像获取实物翻译的新技术方案。

根据本发明的第一方面，提供了一种实物翻译方法，其包括：

获取待翻译图像；

识别所述待翻译图像中存在实物的实物区域及所述实物区域对应的实物类别；

执行在所述待翻译图像的所述实物区域所在位置、提供对应实物类别的翻译标注的操作。

可选地，所述识别所述待翻译图像中存在实物的实物区域及所述实物区域对应的实物类别包括：

对所述待翻译图像进行实物特征提取生成图像特征图；

基于所述图像特征图，生成所述待翻译图像中存在实物特征的至少一个预测区域，形成预测区域集合；

计算每一预测区域对应每一预训练实物类别的类别概率；

根据所述预测区域集合中的预测区域以及每一预测区域对应每一预训练实物类别的类别概率，得到所述待翻译图像中存在实物的实物区域及所述实物区域对应的实物类别。

可选地，所述根据所述预测区域集合中的预测区域以及每一预测区域对应每一预训练实物类别的类别概率，得到所述待翻译图像中存在实物的实物区域及所述实物区域对应的实物类别包括：

在所述预测区域集合中，筛选出最大类别概率对应的第一预测区域为第一实物区域；

确定所述待翻译图像中存在实物的实物区域至少包括所述第一实物区域，以及确定所述第一实物区域对应的实物类别。

可选地，所述根据所述预测区域集合中的预测区域以及每一预测区域对应每一预训练实物类别的类别概率，得到所述待翻译图像中存在实物的实物区域及所述实物区域对应的实物类别还包括：

在确定所述第一预测区域为第一实物区域之后，遍历所述预测区域集合中除所述第一预测区域之外的其余预测区域，计算每一其余预测区域与所述第一预测区域之间的重叠面积占所述第一预测区域的面积的比例；

对所述预测区域集合进行过滤，去除所述第一预测区域以及去除所述其余预测区域中使得所述比例大于设定阈值的预测区域，得到过滤后的预测区域集合；

在过滤后的预测区域集合中，确定最大类别概率对应的第二预测区域为第二实物区域；

确定所述待翻译图像中存在实物的实物区域还包括所述第二实物区域，以及确定所述第二实物区域对应的实物类别。

可选地，所述获取待翻译图像包括：

获取采集到的包含所述待翻译图像的原始图像；

确定用于选定翻译区域的选定翻译框在所述原始图像上的定位；

根据所述定位，从所述原始图像中提取位于所述选定翻译框内的像素部分形成上述待翻译图像。

根据本发明的第二方面，还提供了一种实物翻译方法，用于移动终端，其包括：

获取待翻译图像；

将所述待翻译图像发送至服务器，以供所述服务器：识别所述待翻译图像中存在实物的实物区域及所述实物区域对应的实物类别，并提供显示控制数据，其中，所述显示控制数据包含所述实物区域在所述待翻译图像上的位置信息、及所述实物区域对应的实物类别的翻译标注；

响应于所述服务器提供的所述显示控制数据，在所述待翻译图像的所述实物区域所在位置、显示对应的实物类别的翻译标注。

根据本发明的第三方面，还提供了一种实物翻译方法，用于服务器，其包括：

获取移动终端提供的待翻译图像；

获取所述实物区域在所述待翻译图像上的位置信息、及所述实物区域对应的实物类别的翻译标注，形成显示控制数据；

将所述显示控制数据发送至所述移动终端，以供所述移动终端根据所述显示控制数据在所述待翻译图像的所述实物区域所在位置、显示对应的实物类别的翻译标注。

对所述待翻译图像进行实物特征提取生成图像特征图；

计算每一预测区域对应每一预训练实物类别的类别概率；

确定所述待翻译图像中存在实物的实物区域还包括第二实物区域，以及确定所述第二实物区域对应的实物类别。

可选地，所述获取移动终端提供的待翻译图像包括：

获取移动终端提供的包含所述待翻译图像的原始图像；

根据所述定位，从所述原始图像中提取位于所述选定翻译框内的像素部分形成所述待翻译图像。

根据本发明的第四方面，提供了一种移动终端，其包括存储器和处理器，所述存储器存储可执行指令，所述指令用于控制所述处理器进行操作以执行根据本发明第一方面或者第二方面所述的方法。

根据本发明的第五方面，提供了一种服务器，其包括存储器和处理器，所述存储器存储可执行指令，所述指令用于控制所述处理器进行操作以执行根据本发明第一方面或者第三方面所述的方法。

本发明的一个有益效果在于，根据本发明实施例的方法，用户可以通过采集场景图像获取图像中实物的翻译标注，而且在图像中存在两个以上实物的情况下可以在实物所在位置提供翻译标注，提高了语言翻译的实时性、灵活性和准确性。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是根据本发明实施例的语言翻译方法的流程示意图；

图2是根据本发明一个例子的语言翻译方法的流程示意图；

图3是根据本发明另一个例子的语言翻译方法的流程示意图；

图4是根据本发明第三个例子的语言翻译方法的流程示意图；

图5是根据本发明另一实施例的语言翻译方法的流程示意图；

图6是根据本发明第三实施例的语言翻译方法的流程示意图；

图7是根据本发明实施例的语言翻译装置的原理框图；

图8是根据本发明另一实施例的语言翻译装置的原理框图；

图9是根据本发明第三实施例的语言翻译装置的原理框图；

图10是根据本发明实施例的移动终端的硬件结构示意图；

图11是根据本发明实施例的服务器的硬件结构示意图；

图12是根据本发明实施例的语言翻译系统的原理框图；

图13是图12中语言翻译系统实施语言翻译的交互示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

<方法实施例>

图1是根据本发明实施例的实物翻译方法的流程示意图。

本发明该实施例的方法可以由移动终端实施，也可以由服务器实施，还可以由移动终端和服务器配合实施。

根据图1所示，本发明该实施例的方法可以包括如下步骤：

步骤S1100，获取待翻译图像。

在步骤S1100中，待翻译图像可以是通过移动终端采集到的原始图像，也可以是由该原始图像的部分像素组成的图像。

步骤S1200，识别待翻译图像中存在实物的实物区域及实物区域对应的实物类别。

在步骤S1200中，识别待翻译图像中存在实物的实物区域用于确定实物所在的位置区域。例如，该实物区域对应实物的外接矩形框。

在步骤S1200中，识别实物区域对应的实物类别用于确定实物区域中实物的具体类别。

该实物类别的细化程度取决于识别所基于的模型的训练精度，例如，基于模型可以识别到实物类别为“花”，如果识别所基于的模型对不同种类的花均进行了训练，则基于模型可以识别到实物类别为“牵牛花”等。

以待翻译图像中存在两个实物，分别为牛和人为例，通过该步骤S1200可以识别出两个实物区域，并识别出一个实物区域对应的实物类别为牛，另一个实物区域对应的实物类别为人。

步骤S1300，执行在待翻译图像的实物区域所在位置、提供对应实物类别的翻译标注的操作。

在步骤S1300中，实物区域所在位置包括实物区域内部及实物区域外周，只要能够指示翻译标注所对应的实物即可。

通过该步骤S1300，将在待翻译图像中实物所在的位置区域提供表示其实物类别的翻译标注供用户使用。

仍以待翻译图像中存在两个实物，分别为牛和人为例，通过该步骤S1300将执行在“牛”所在的位置区域提供“牛”的翻译标注，及在“人”所在的位置区域提供“人”的翻译标注。

根据本发明该实施例，用户可以通过采集现场图像的方式获取图像中实物的翻译标注，提高了语言翻译的实时性、灵活性和方便性。

根据本发明该实施例，可以在图像中实物所在的位置区域提供对应实物类别的翻译标注，以明确指示翻译标注所对应的实物，这在图像中存在两个以上实物的情况下是非常有利的。

图2是上述步骤S1200的一个例子的流程示意图。

根据图2所示，在该例子中，上述步骤S1200中识别待翻译图像中存在实物的实物区域及实物区域对应的实物类别可以进一步包括如下步骤：

步骤S1210，对待翻译图像进行实物特征提取生成图像特征图。

在步骤S1210中，可以通过卷积神经网络对待翻译图像进行实物特征提取生成该图像特征图。

步骤S1220，基于该图像特征图，生成待翻译图像中存在实物特征的至少一个预测区域，形成预测区域集合。

该预测区域为待翻译图像中可能存在实物的区域。

步骤S1230，计算每一预测区域对应每一预训练实物类别的类别概率。

根据该步骤S1230，识别所基于的模型预训练有多个实物类别，因此，可以计算得到每一预测区域对应每一预训练实物类别的类别概率。

例如，识别所基于的模型预训练有100个实物类别，通过步骤S1220生成3个预测区域，则在步骤S1230中，将针对每一预测区域计算得到100个类别概率，一共计算得到300个类别概率。

步骤S1240，根据预测区域集合中的预测区域以及每一预测区域对应每一预训练实物类别的类别概率，得到待翻译图像中存在实物的实物区域及实物区域对应的实物类别。

例如，该例子中可以基于大型复杂公开数据集(比如Image net数据集)预训练的深度学习网络模型进行识别。该深度学习网络模型可以包括两个卷积神经网络，一个是区域生成网络(Region Proposal Network,RPN)，另一个是分类网络，两个网络共用特征提取结构，即共用卷积层，通过该特征提取结构对待翻译图像进行卷积处理可以实现特征提取，得到图像特征图；进一步地，在该图像特征图上，区域生成网络使用一个窗口在图像特征图上滑动遍历卷积，将局部的特征图像转换成低维特征，预测得到存在实物特征的至少一个预测区域；之后，再通过分类网络对预测网络进行分类计算，得到每一预测区域对应每一预训练实物类别的类别概率。

又例如，该例子也可以通过选择性搜索网络(Selective Search)在图像特征图的基础上预测得到存在实物特征的至少一个预测区域。

根据本发明该例子，其先基于图像特征图得到可能包含实物的预测区域，再通过对预测区域处理得到存在实物的实物区域及实物区域对应的实物类别，这不仅可以提高实物翻译的准确性，而且还可以通过缩短识别时间来进一步提高实物翻译的实时性。

图3是上述步骤S1240的一个例子的流程示意图。

根据图3所示，在该例子中，上述步骤S1240中根据预测区域集合中的预测区域以及每一预测区域对应每一预训练实物类别的类别概率，得到待翻译图像中存在实物的实物区域及实物区域对应的实物类别可以进一步包括：

步骤S1241，在预测区域集合中，筛选出最大类别概率对应的第一预测区域为第一实物区域。

例如，预测区域集合中共有4个预测区域，每一预测区域具有对应100个实物类别的100个类别概率，则可以先确定每一预测区域对应的实物类别分别为各自的最大类别概率表示的实物类别，其中，预测区域A的最大类别概率为0.98，表示的实物类别为“牛”，预测区域B的最大类别概率为0.93，表示的实物类别为“牛”，预测区域C的最大类别概率为0.96，表示的实物类别仍为“人”，预测区域D的最大类别概率为0.95，表示的实物类别为“人”，则在该步骤S1241，将筛选出最大类别概率0.98对应的预测区域A为第一预测区域，也即为第一实物区域。

步骤S1242，确定待翻译图像中存在实物的实物区域至少包括该第一实物区域，以及确定该第一实物区域对应的实物类别。

在步骤S1242中，确定第一实物区域对应的实物类别也即为确定步骤S1241中筛选出的最大类别概率表示的实物类别为第一实物区域对应的实物类别。继续步骤S1241中的举例说明，该步骤S1242中，确定最大类别概率0.98表示的实物类别“牛”为第一实物区域对应的实物类别。

本发明该例子基于最大类别概率从预测区域中筛选出高概率存在实物的实物区域，这有利于缩减识别时间，提高实物翻译的实时性。

图4是上述步骤S1240的另一个例子的流程示意图。

根据图4所示，在该例子中，上述步骤S1240在图3所示例子的基础上，还可以进一步包括如下步骤：

步骤S1243，在确定第一预测区域为第一实物区域之后，遍历预测区域集合中除第一预测区域之外的其余预测区域，计算每一其余预测区域与第一预测区域之间的重叠面积占第一预测区域的比例。

例如，继续步骤S1241中的举例说明，遍历预测区域集合中除第一预测区域之外的其余预测区域，包括预测区域B、预测区域C和预测区域D，计算预测区域B与第一预测区域之间的重叠面积占第一预测区域的面积的比例为S1，计算预测区域C与第一预测区域之间的重叠面积占第一预测区域的面积的比例为S2，及计算预测区域D与第一预测区域之间的重叠面积占第一预测区域的面积的比例为S3。

步骤S1244，对预测区域集合进行过滤，去除第一预测区域以及去除其余预测区域中使得该比例大于设定阈值的预测区域，得到过滤后的预测区域集合。

例如，继续步骤S1243中的举例说明，比例S1大于设定阈值，比例S2和比例S3均小于或者等于设定阈值，则根据该步骤S1244，得到过滤后的预测区域集合将包括预测区域C和预测区域D。

该设定阈值可以根据待翻译图像的尺寸、使用场景及两个不同类别的实物在图像上重叠又能加以区分开的合理重叠面积确定。

例如，该设定阈值可以在0.5-0.7之间。

步骤S1245，在过滤后的预测区域集合中，确定最大类别概率对应的第二预测区域为第二实物区域。

例如，继续步骤S1244中的举例说明，在该步骤S1245中，确定预测区域C的最大类别概率0.96为过滤后的预测区域集合中的最大类别概率，因此，确定预测区域C为第二预测区域，即为第二实物区域。

步骤S1246，确定待翻译图像中存在实物的实物区域还包括第二实物区域，以及确定第二实物区域对应的实物类别。

在步骤S1246中，确定第二实物区域对应的实物类别也即为确定步骤S1245中筛选出的最大类别概率表示的实物类别为第二实物区域对应的实物类别。继续步骤S1245中的举例说明，该步骤S1246中，确定过滤后的预测区域集合中的最大类别概率0.96表示的实物类别“人”为第二实物区域对应的实物类别。

根据本发明该例子，可以以简单有效的方式确定待翻译图像中存在的两个以上实物，以实现对待翻译实物中存在的两个以上实物进行翻译标注的目的。

另外，在步骤S1246之后，如果过滤后的预测区域集合中除第二预测区域之外还有其余预测区域，则可以参照图4所示例子，继续过滤预测区域集合以筛选出存在实物的其他实物区域，直至最终过滤后的预测区域集合中没有预测区域为止。

例如，继续步骤S1246中的举例说明，该步骤S1246后，遍历过滤后的预测区域集合中除第二预测区域之外的其余预测区域仅包括预测区域D，计算预测区域D与第二预测区域之间的重叠面积占第二预测区域的比例为S4，如果该比例S4大于设定阈值，则进一步过滤预测区域集合后将不具有任何预测区域，识别结束；如果该比例S4小于或者等于设定阈值，则进一步过滤预测区域集合后仅剩预测区域D，其将被确定为第三实物区域，识别结束。

在本发明的一个例子中，上述步骤S1100中获取待翻译图像可以进一步包括如下步骤：

步骤S1110，获取采集到的包含待翻译图像的原始图像。

该原始图像可以为通过移动终端采集得到的图像。

步骤S1120，确定用于选定翻译区域的选定翻译框在原始图像上的定位。

例如，该选定翻译框可以是在采集到原始图像后，由用户通过移动终端在原始图像上圈选待翻译图像的边框。在该例子中，移动终端可以通过识别圈选操作的轨迹确定选定翻译框在原始图像上的定位。

又例如，该选定翻译框可以是在移动终端的拍照界面上显示的固定边框，用户在操作时，需要通过手持移动终端将待翻译实物框定在选定翻译框中进行原始图像的采集。在该例子中，可以根据选定翻译框在拍照界面上的位置确定选定翻译区域的选定翻译框在原始图像上的定位。

步骤S1130，根据该定位，从原始图像中提取位于选定翻译框内的像素部分形成上述待翻译图像。

根据本发明该例子，通过选定翻译框圈选待翻译实物可以有效去除原始图像中的背景噪声，减少无效识别操作，进一步提高实物翻译的准确性及实时性。

图5是根据本发明另一实施例的实物翻译方法的流程示意图。

本发明该实施例的方法由移动终端实施，根据图5所示，本发明该实施例的方法可以包括如下步骤：

步骤S5100，移动终端获取待翻译图像。

在步骤S1100中，待翻译图像可以是通过移动终端采集到的原始图像，也可以是该原始图像的一部分。

步骤S5200，移动终端将待翻译图像发送至服务器，以供服务器：识别待翻译图像中存在实物的实物区域及实物区域对应的实物类别，并提供显示控制数据，其中，显示控制数据包含实物区域在待翻译图像上的位置信息、及实物区域对应的实物类别的翻译标注。

在本发明的一个例子中，待翻译图像是原始图像的一部分，该步骤S5200中，移动终端可以将包含待翻译图像的原始图像发送至服务器；移动终端也可以从原始图像中提取得到待翻译图像发送至服务器，提取步骤可参见以上步骤S1110至步骤S1130。

步骤S5300，移动终端响应于服务器提供的显示控制数据，在待翻译图像的所述实物区域所在位置、显示对应的实物类别的翻译标注。

在本发明的一个例子中，待翻译图像是原始图像的一部分，该步骤S5300中，翻译标注可以在原始图像上进行显示。

根据本发明该实施例，移动终端负责前端采集及显示输出，服务器负责识别处理及反馈显示控制数据，这可以降低对移动终端的数据处理能力的要求，而且由服务器一对多处理来自不同移动终端的请求，即有利于提高处理的实时性又可以减少资源浪费。

在该实施例中，服务器识别待翻译图像中存在实物的实物区域及实物区域对应的实物类别的步骤可以进一步参见图2至图4所示例子。

图6是根据本发明第三实施例的实物翻译方法的流程示意图。

本发明该实施例的方法由服务器实施，根据图6所示，本发明该实施例的方法可以包括如下步骤：

步骤S6100，服务器获取移动终端提供的待翻译图像。

步骤S6200，识别待翻译图像中存在实物的实物区域及实物区域对应的实物类别。

步骤S6300，服务器获取实物区域在待翻译图像上的位置信息、及实物区域对应的实物类别的翻译标注，形成显示控制数据。

步骤S6400，服务器将显示控制数据发送至移动终端，以供移动终端根据显示控制数据在待翻译图像的实物区域所在位置、显示对应的实物类别的翻译标注。

上述步骤S6200中识别待翻译图像中存在实物的实物区域及实物区域对应的实物类别的步骤可以进一步参见图2至图4所示例子。

在本发明的一个例子中，上述步骤S6100中获取移动终端提供的待翻译图像可以进一步包括如下步骤：

步骤S6110，服务器获取移动终端提供的包含待翻译图像的原始图像。

根据该步骤S6110，待翻译图像为原始图像的一部分。

步骤S6120，服务器确定用于选定翻译区域的选定翻译框在原始图像上的定位。

在本发明的一个例子中，该定位可以由移动终端提供。

在本发明的一个例子中，选定翻译框可以是在移动终端的拍照界面上显示的固定边框，用户在操作时，需要通过手持移动终端将待翻译实物框定在选定翻译框中进行原始图像的采集。在该例子中，该定位也可以根据选定翻译框在拍照界面上的位置预先存储在服务器中。

步骤S6130，服务器根据该定位，从原始图像中提取位于选定翻译框内的像素部分形成待翻译图像。

在本发明的另外的例子中，待翻译图像为原始图像的一部分，服务器可以从移动终端直接获取从原始图像中提取得到的待翻译图像。

<装置实施例>

图7是根据本发明实施例的实物翻译装置的原理框图。

根据图7所示，本发明该实施例的实物翻译装置可以包括图像获取模块7100、识别模块7200和执行模块7300。

该图像获取模块7100用于获取待翻译图像。

该识别模块7200用于识别待翻译图像中存在实物的实物区域及实物区域对应的实物类别。

该执行模块7300用于执行在待翻译图像的所述实物区域所在位置、提供对应实物类别的翻译标注的操作。

在本发明的一个例子中，该识别模块7200可以进一步包括特征图提取单元、预测单元、概率计算单元及结果输出单元(图中未示出)。

该特征图提取单元用于对待翻译图像进行实物特征提取生成图像特征图。

该预测单元用于基于图像特征图，生成待翻译图像中存在实物特征的至少一个预测区域，形成预测区域集合。

该概率计算单元用于计算每一预测区域对应每一预训练实物类别的类别概率。

该结果输出单元用于根据预测区域集合中的预测区域以及每一预测区域对应每一预训练实物类别的类别概率，得到待翻译图像中存在实物的实物区域及实物区域对应的实物类别。

在本发明的一个例子中，上述结果输出单元可以进一步用于：在预测区域集合中，筛选出最大类别概率对应的第一预测区域为第一实物区域；确定待翻译图像中存在实物的实物区域至少包括所述第一实物区域，以及确定第一实物区域对应的实物类别。

在本发明的一个例子中，上述结果输出单元还可以进一步用于：在确定第一预测区域为第一实物区域之后，遍历预测区域集合中除第一预测区域之外的其余预测区域，计算每一其余预测区域与第一预测区域之间的重叠面积占第一预测区域的比例；对预测区域集合进行过滤，去除第一预测区域以及去除其余预测区域中使得该比例大于设定阈值的预测区域，得到过滤后的预测区域集合；在过滤后的预测区域集合中，确定最大类别概率对应的第二预测区域为第二实物区域；确定待翻译图像中存在实物的实物区域还包括第二实物区域，以及确定第二实物区域对应的实物类别。

在本发明的一个例子中，上述图像获取单元7100可以进一步用于：获取采集到的包含待翻译图像的原始图像；确定用于选定翻译区域的选定翻译框在原始图像上的定位；以及，根据该定位从原始图像中提取位于选定翻译框内的像素部分形成待翻译图像。

本发明该实施例的装置可以设置在移动终端中，也可以设置在服务器中，还可以是分设在移动终端和服务器中。

图8是根据本发明另一实施例的实物翻译装置的原理框图。

根据图8所示，该实施例的实物翻译装置设置在移动终端中，其可以包括图像获取模块8100、发送模块8200和响应模块8300。

该图像获取模块8100用于获取待翻译图像。

该发送模块8200用于将待翻译图像发送至服务器，以供服务器：识别待翻译图像中存在实物的实物区域及实物区域对应的实物类别，并提供显示控制数据，其中，显示控制数据包含实物区域在待翻译图像上的位置信息、及实物区域对应的实物类别的翻译标注。

该响应模块8300用于响应于服务器提供的显示控制数据，在待翻译图像的实物区域所在位置、显示对应的实物类别的翻译标注。

图9是根据本发明第三实施例的实物翻译装置的原理框图。

根据图9所示，该实施例的实物翻译装置设置在服务器中，其可以包括图像获取模块9100、识别模块9200、数据生成模块9300和发送模块9400。

该图像获取模块9100用于获取移动终端提供的待翻译图像。

该识别模块9200用于识别待翻译图像中存在实物的实物区域及所述实物区域对应的实物类别。

该数据生成模块9300用于获取实物区域在所述待翻译图像上的位置信息、及实物区域对应的实物类别的翻译标注，形成显示控制数据。

该发送模块9400用于将显示控制数据发送至移动终端，以供移动终端根据显示控制数据在待翻译图像的实物区域所在位置、显示对应的实物类别的翻译标注。

该识别模块9200的进一步结构可以参见图7所示实施例中的例子。

该图像获取模块9100可以进一步用于：获取移动终端提供的包含所述待翻译图像的原始图像；确定用于选定翻译区域的选定翻译框在原始图像上的定位；根据该定位从原始图像中提取位于选定翻译框内的像素部分形成待翻译图像。

<硬件结构>

图10是根据本发明实施例的移动终端的硬件结构示意图。

根据图10所示，移动终端1000可以包括一个或多个处理器1010、一个或者多个存储器1020。

处理器1010可以是中央处理器CPU、嵌入式处理器、微处理器MCU等。

存储器1020例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。

存储器1020用于存储指令，该指令用于控制处理器1010进行操作以执行根据本发明第一实施例或者第二实施例的实物翻译方法。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作，这是本领域公知，故在此不再详细描述。

本发明实施例的移动终端还可以包括接口装置1030、通信装置1040、显示装置1050、输入装置1060、扬声器1070、麦克风1080等等。

接口装置1030例如包括USB接口、耳机接口等。通信装置1040例如能够进行有线或无线通信，具体地可以包括Wifi通信、蓝牙通信、2G/3G/4G/5G通信等等。输入装置1060例如可以包括触摸屏、键盘、体感输入等。用户可以通过麦克风1080输入语音信息。移动终端1000可以通过扬声器1070输出语音信息。

虽然图10示出了移动终端1000的多个装置，但本发明实施例的移动终端也可以仅包括其中的部分装置，例如处理器1010、存储器1020、通信装置1040等。

以上移动终端可以通过诸如有线或无线网络等方式发送或接收信号，或可以在诸如存储器中将信号处理或存储为物理存储状态。移动终端可以是包括硬件、软件或内嵌逻辑组件或者两个或多个此类组件的组合的电子装置，并能够执行由移动终端实施或支持的合适的功能。例如，移动终端可以是智能手机、平板电脑、便携式电子邮件装置、电子书、手持游戏机和/或游戏控制器、笔记本电脑、上网本、手持电子装置，智能穿戴装置，等等。

图11是根据本发明实施例的服务器的硬件结构示意图。

根据图11所示，服务器2000可以包括一个或多个处理器2010、一个或者多个存储器2020。

处理器2010可以是中央处理器CPU、嵌入式处理器等。

存储器2020例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。

存储器2020用于存储指令，该指令用于控制处理器2010进行操作以执行根据本发明第一实施例或者第三实施例的实物翻译方法。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作，这是本领域公知，故在此不再详细描述。

本发明该实施例中，服务器2000还包括通信装置2030，以通过网络与移动终端1000建立连接，实现数据和/或指令的传输。通信装置2030例如包括Wifi通信、2G/3G/4G/5G通信等等。

以上服务器可以是整体式服务器或是跨多计算机或计算机数据中心的分散式服务器。服务器可以是各种类型的，例如但不限于，网络服务器，新闻服务器，邮件服务器，消息服务器，广告服务器，文件服务器，应用服务器，交互服务器，数据库服务器，或代理服务器。在一些实施例中，每个服务器可以包括硬件，软件，或用于执行服务器所支持或实现的合适功能的内嵌逻辑组件或两个或多个此类组件的组合。在本发明实施例中，服务器用于提供支持电子票务信息处理所必需的全部功能。

图12是根据本发明实施例的实物翻译系统的原理框图。

根据图12所示，本发明该实施例的实物翻译系统包括移动终端1000和服务器2000。

该实物翻译系统通过移动终端1000与服务器2000的配合实施本发明实施例的实物翻译方法。

图13是根据本发明一个例子的实物翻译系统的交互流程示意图。

根据图13所示，该例子的实物翻译系统进行实物翻译的交互过程包括：

步骤S3110，移动终端1000采集包含待翻译图像的原始图像。

移动终端的拍照界面上显示有的位置固定的选定翻译框，用户在操作时，通过手持移动终端1000将待翻译实物框定在选定翻译框中进行原始图像的采集。

步骤S3120，移动终端1000将该原始图像发送至服务器2000。

步骤S3210，服务器2000获取移动终端提供的包含待翻译图像的原始图像。

步骤S3220，服务器2000确定用于选定翻译区域的选定翻译框在原始图像上的定位。

在该例子中，服务器2000根据选定翻译框在拍照界面上的位置确定选定翻译区域的选定翻译框在原始图像上的定位，该位置关系预存在服务器2000的存储器中。

步骤S3230，服务器2000根据该定位从原始图像中提取位于选定翻译框内的像素部分形成待翻译图像。

步骤S3240，服务器2000识别待翻译图像中存在实物的实物区域及实物区域对应的实物类别。

步骤S3250，服务器2000获取实物区域在待翻译图像上的位置信息、及实物区域对应的实物类别的翻译标注，形成显示控制数据。

步骤S3260，服务器2000将显示控制数据发送至移动终端1000。

步骤S3130，移动终端1000接收该显示控制数据，并根据该显示控制数据在待翻译图像的实物区域所在位置、显示对应的实物类别的翻译标注。

该例子中，移动终端1000可以在显示的原始图像上增加图层显示翻译标注。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种实物翻译方法，其特征在于，包括：

获取待翻译图像；

2.根据权利要求1所述的方法，其特征在于，所述识别所述待翻译图像中存在实物的实物区域及所述实物区域对应的实物类别包括：

对所述待翻译图像进行实物特征提取生成图像特征图；

计算每一预测区域对应每一预训练实物类别的类别概率；

3.根据权利要求2所述的方法，其特征在于，所述根据所述预测区域集合中的预测区域以及每一预测区域对应每一预训练实物类别的类别概率，得到所述待翻译图像中存在实物的实物区域及所述实物区域对应的实物类别包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述预测区域集合中的预测区域以及每一预测区域对应每一预训练实物类别的类别概率，得到所述待翻译图像中存在实物的实物区域及所述实物区域对应的实物类别还包括：

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述获取待翻译图像包括：

获取采集到的包含所述待翻译图像的原始图像；

6.一种实物翻译方法，用于移动终端，其特征在于，包括：

获取待翻译图像；

7.一种实物翻译方法，用于服务器，其特征在于，包括：

获取移动终端提供的待翻译图像；

8.根据权利要求7所述的方法，其特征在于，所述识别所述待翻译图像中存在实物的实物区域及所述实物区域对应的实物类别包括：

对所述待翻译图像进行实物特征提取生成图像特征图；

计算每一预测区域对应每一预训练实物类别的类别概率；

9.根据权利要求8所述的方法，其特征在于，所述根据所述预测区域集合中的预测区域以及每一预测区域对应每一预训练实物类别的类别概率，得到所述待翻译图像中存在实物的实物区域及所述实物区域对应的实物类别包括：

10.根据权利要求9所述的方法，其特征在于，所述根据所述预测区域集合中的预测区域以及每一预测区域对应每一预训练实物类别的类别概率，得到所述待翻译图像中存在实物的实物区域及所述实物区域对应的实物类别还包括：

11.根据权利要求7至10中任一项所述的方法，其特征在于，所述获取移动终端提供的待翻译图像包括：

获取移动终端提供的包含所述待翻译图像的原始图像；

12.一种移动终端，其特征在于，包括存储器和处理器，所述存储器存储可执行指令，所述指令用于控制所述处理器进行操作以执行根据权利要求1-6中任一项所述的方法。

13.一种服务器，其特征在于，包括存储器和处理器，所述存储器存储可执行指令，所述指令用于控制所述处理器进行操作以执行根据权利要求1-5，7-11中任一项所述的方法。