CN104090871A

CN104090871A - 图像翻译方法及系统

Info

Publication number: CN104090871A
Application number: CN201410345934.9A
Authority: CN
Inventors: 王帆; 高浩渊; 吴中勤; 刘璇; 吴华; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-07-18
Filing date: 2014-07-18
Publication date: 2014-10-08

Abstract

本发明提出一种图像翻译方法及系统，其中，该方法包括：获得图片，并从图片中确定出目标对象；向图片识别系统发送目标对象的图片，以使图片识别出目标对象所属的类型信息，并向翻译系统发送类型信息，以使翻译系统对类型信息进行翻译；以及接收并显示类型信息及其对应的译文。本发明实施例的图像翻译方法及系统，在获得用户输入的图片之后，可为用户同时提供图片对应的类型信息和译文，解决了用户有翻译需求时，无法获知当前物体是什么的问题，满足了用户基于图像进行翻译的需求。

Description

图像翻译方法及系统

技术领域

本发明涉及计算机技术领域，特别涉及一种图像翻译方法及系统。

背景技术

随着经济的发展，对外交流的增多，在对外交流的过程中，为了获得在不同语言之间的通信，需要在这些语言之间进行翻译，目前，互联网中为用户提供了多种翻译软件，目前，用户常见的翻译软件主要有三种翻译方式，包括文本翻译、语音翻译和光学字符识别(Optical Character Recognition，OCR)文字翻译，其中：

文本翻译是人们最早和最常用的一种翻译方式，用户在翻译软件提供的输入框中输入需要翻译的文字，以及选择需要翻译的文字对应的目标语言后，点击翻译按钮，就可以获得需要翻译文字对应的目标语言的译文。

语音翻译可以减少用户主动输入需要翻译的文字的操作，用户通过对着具有语音翻译功能的翻译软件说话，翻译软件即可以识别出对应的文字，并通过翻译系统将用户需要翻译的文字转换为用户需要的目标语言的译文。

OCR文本翻译能够识别书本或者图片中的文字，并根据用户设置的目标语言，通过翻译系统将识别出的文字转换为目标语言对应的译文的一种翻译方式。

上述三种翻译方式均需要获得用户输入的原文，然而在某些情况下，用户不知当前物体是什么时，用户无法通过现有的翻译软件获知当前物体对应的另一种语言的译文，这主要是因为用户无法向具有文本翻译、语音翻译或者OCR文本翻译功能的翻译软件提供翻译软件需要的该物品的文字表述、语音表述，因此，翻译软件无法完成翻译功能。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的第一个目的在于提出一种图像翻译方法，该方法能够同时为用户提供图片对应的类型信息和译文，解决了用户有翻译需求时，无法获知当前物体是什么的问题，满足了用户基于图像进行翻译的需求。

本发明的第二个目的在于提出一种图像翻译系统。

为实现上述目的，本发明第一方面实施例的图像翻译方法，包括：S1、获得图片，并从所述图片中确定出目标对象；S2、向图片识别系统发送所述目标对象的图片，以使所述图片识别系统识别出所述目标对象所属的类型信息，并向翻译系统发送所述类型信息，以使所述翻译系统对所述类型信息进行翻译；以及S3、接收并显示所述类型信息及所述类型信息对应的译文。

根据本发明实施例的图像翻译方法，在确定图片中的目标对象后，向图片识别系统发送目标对象的图片，以使图片识别系统识别出目标对象所属的类型信息，并向翻译系统发送类型信息以使翻译系统对类型信息进行翻译，以及接收并显示类型信息及其对应的译文，由此，提出了一种基于图像的图像翻译方式，在为用户提供图片识别功能的同时，提供了翻译功能，解决了用户有翻译需求时，无法获知当前物体是什么的问题，满足了用户基于图像进行翻译的需求。

为实现上述目的，本发明第二方面实施例的图像翻译系统，包括终端、图片识别系统和翻译系统，其中：所述终端，用于获得图片，从所述图片中确定出目标对象；向所述图片识别系统发送所述目标对象的图片，接收并显示类型信息及其对应的译文；所述图片识别系统，用于对所述目标对象的图片进行识别，获得所述目标对象所属的类型信息，并向所述翻译系统发送所述类型信息；所述翻译系统，用于对接收的所述类型信息进行翻译。

根据本发明实施例的图像翻译系统，终端获取图片中的目标对象，并将目标对象的图片发送给图片识别系统，图片识别系统接收并识别出图片中的目标对象所属的类型信息，并向翻译系统发送类型信息，以及翻译系统根据接收到的类型信息进行翻译，终端接收并显示类型信息及其对应的译文，提出了一种基于图像的图像翻译方式，在为用户提供图片识别功能的同时，提供了翻译功能，解决了用户有翻译需求时，无法获知当前物体是什么的问题，满足了用户基于图像进行翻译的需求。

附图说明

图1是根据本发明一个实施例的图像翻译方法的流程图。

图2a是根据本发明一个实施例的图片的示意图一。

图2b是根据本发明一个实施例的圈选目标对象的示意图一。

图2c是根据本发明一个实施例的涂选目标对象的示意图一。

图2d是根据本发明一个实施例的显示类型信息及其对应的译文的页面的示意图一。

图3是根据本发明一个实施例的用户分享界面的示意图。

图4a是根据本发明一个实施例的图片的示意图二。

图4b是根据本发明一个实施例的圈选目标对象的示意图二。

图4c是根据本发明一个实施例的涂选目标对象的示意图二。

图4d是根据本发明一个实施例的显示类型信息及其对应的译文的页面的示意图二。

图5是根据本发明另一个实施例的图像翻译方法的流程图。

图6a是根据本发明一个实施例的图片的示意图三。

图6b是根据本发明一个实施例的圈选目标对象的示意图三。

图6c是根据本发明一个实施例的涂选目标对象的示意图三。

图6d是根据本发明一个实施例的显示类型信息及其对应的译文的页面的示意图三。

图7是根据本发明一个实施例的图像翻译系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的图像翻译方法及系统。

图1是根据本发明一个实施例的图像翻译方法的流程图。

如图1所示，该图像翻译方法包括：

S1、获得图片，并从图片中确定出目标对象。

具体地，在用户通过终端的摄像头拍摄图片后，可通过两种方式从图片中获得待识别的目标对象，其中：第一种方式为圈选，圈选是指用户通过手指将图片中的目标对象圈在一个包含目标对象的圆形、椭圆、长方形或者不规则的形状之内，例如，在用户通过终端拍摄了一张如图2a所示的动物的图片后，用户可通过如图2b所示的圈选方式从图片中圈选出待识别的动物。

第二种方式为涂选，涂选是指用户通过手指涂抹图片中待识别的目标对象，例如，在用户通过终端拍摄了一张如图2a所示的动物的图片后，用户可通过如图2c所示的涂选方式从图片中圈选出待识别的动物。

其中，上述终端可以为手机、平板电脑等具有摄像头模块的移动终端。上述目标对象可以包括但不限于动物、植物、景点、食物和人物等，例如，用户在跟外国友人游览颐和园时，当外国友人问用户当前的景点是什么时，若用户也不清楚当前的这些景点，此时，用户可通过随身携带的智能手机拍摄一张景点图片进行识别和翻译。

S2、向图片识别系统发送目标对象的图片，以使图片识别系统识别出目标对象所属的类型信息，并向翻译系统发送类型信息，以使翻译系统对类型信息进行翻译。

在终端获得用户从图片中圈选或者涂抹出的目标对象后，终端将获得的目标对象的图片发送至图片识别系统，图片识别系统接收目标对象的图片后将对图片进行识别，以确定该目标对象所所属的类型信息。其中，类型信息可以包括但不限于标签，并且目标对象所属的类型信息是图片识别系统基于预设的识别模型获得的，其中，识别模型可以包括但不限于神经网络模型，并且神经网络模型可以包括但不限于卷积神经网络和全连接神经网络。

具体地，在图片识别系统获得终端发送的待识别的目标对象的图片之前，图片识别系统预先建立识别模型，具体而言，图片识别系统首先获得一定数量的标注图片，并制定对应的标签L1、L2、L3…,例如，标签L1为苹果，则图片识别系统获得多张苹果图片P1、P2、P3…Pn,然后构建一个预设层数例如十层的深度的神经网络模型例如BP(BackPropagation，方向传播)神经网络模型，其中，该神经网络模型的第一预设层数例如五层采用卷积神经网络，第二预设层数例如五层为全连接神经网络，并且最后链接对应的分类模型，然后通过图片识别系统获得的图片数据对该神经网络模型进行训练，并使用优化策略以优化各个网络层之间的系数，例如，可以使用随机梯度下降算法SGD(StochasticGradient Descent)优化各个网络之间的系数，以建立一个可以准确识别图片的识别模型。

在图片识别系统建立识别模型后，若用户向该图片识别系统发送一张图片，该图片识别系统将该图片输入识别模型中，并将输出概率最大的类型信息即标签作为该图片的标签，也就是说，图片识别系统将识别模型中与该图片最相似的图片对应的标签作为该图片的标签。另外，图片识别系统也可以将识别模型中与输入图片中目标对象相似的多个相似图片所属的标签输出，进一步而言，可按照与输入图片中目标对象相似的概率值的大小对多个相似图片进行排序，并将概率值大于预设阈值例如30％的多个相似图片对应的标签作为输入图片的标签。

例如，图片识别系统接收到终端发送的如图2b所示的图片后，图片识别系统将把接收到的该图片输入已经训练好的识别模型中，识别模型会把该图片跟模型中已经存在的动物图片进行匹配，找到与其相似的图片，并把这张图片所属的标签“萨摩耶犬”作为图片的标签输出。

另外，对于商品，如食品、化妆品等时，为了可以有效的定位商品所属的具体的商品类别，图片识别系统预先获得一批商品的图片，比如可口可乐的图片，并对图片标定对应的标签，然后通过尺度不变特征转换SIFT(Scale-invariant feature transform)算法提取图片的局部特征描述子，然后对于输入的图片也提取对应的描述子，如果两幅图片在局部特征提取之后，相同特征覆盖率最高，则可认为两者为同样的物体，并将已经标定好的图片的对应标签作为输入图片的标签，另外，也可将相同特征覆盖率超过预定阈值例如60％的多个图片对应的标签作为输入图片的标签。

在该实施例中，在图片识别系统识别出目标对象所属的类型信息后，图片识别系统将目标对象所属的类型信息发送至翻译系统，翻译系统基于预先建立的翻译模型对类型信息进行翻译，并向终端返回类型信息及其对应的译文。

具体地，类型信息主要为目标对象对应的标签，翻译系统可接收来自图片识别系统的一个或多个标签，并基于预先建立的翻译模型对一个或多个标签进行顺序翻译，并将翻译的标签及其对应的译文返回至终端。

下面以一个具体的实现方案对翻译系统预先建立翻译模型的过程进行说明。可以理解的是，下述过程仅出于示例目的，本发明的实施例不限于此。

具体地，翻译系统基于统计机器学习的方法，通过训练大规模“双语语料”建立翻译模型，并进行翻译。具体而言，翻译系统所训练的“双语语料”一般由互为翻译的双语句对组成，即语料库中含有双语的预置对齐关系。在完成对齐后，从对齐好的双语句对中抽取互为翻译的短语片段，并通过这些片段建立翻译模模型，其中，上述过程也可以用于更新翻译模型，并且上述翻译系统所建立的翻译模型可以实现任意两种语言之间的转换，由此，用户可根据需要将目标对象的标签翻译为任意一种语言，方便了用户使用，提高了用户的使用体验。

例如，在图片识别识别系统识别出如图2b所示的动物的图片的标签为“萨摩耶犬”后，图片识别系统可将获得标签发送到翻译系统，翻译系统接收“萨摩耶犬”的标签，并将“萨摩耶犬”作为用户向翻译系统输入的原文，然后将“萨摩耶犬”翻译为对应的英文译文“Samoyed”，其中，译文的语言类型可以是翻译系统中默认的类型，在本发明中翻译系统的翻译类型为中文翻译为英文，用户也可以根据需要设置译文的语言类型。

S3、接收并显示类型信息及类型信息对应的译文。

在该实施例中，终端接收类型信息及类型信息对应的译文，并在对应于目标对象的显示界面上显示类型信息及其对应的译文。其中，终端接收并显示的类型信息可以由图片识别系统返回，也可以由翻译系统返回，也就是说，终端可接收并显示由翻译系统返回的类型信息及其对应的译文，还可以接收并显示由图片识别系统返回的类型信息和由翻译系统返回的类型信息对应的译文。

例如，终端在对应于目标对象的显示界面上显示标签及其对应的译文的方式如图2d所示，用户在看见如图2d所示的结果后，可知道当前不认的狗的类型信息为“萨摩耶犬”，并且对应的英文译文为“Samoyed”，由此，实现了对图片中目标对象的识别的同时，提供了该目标对象的译文，解决了在有翻译需要时，用户无法获知物体是什么的问题。

在该实施例中，若终端接收到多个标签及其对应的译文，终端可按照目标对象所属不同标签的概率由大到小的顺序对多个标签进行排序，并在目标对象的显示界面上显示多个标签及其对应的译文。

为了方便用户可以查看目标对象的多个标签和对应的译文在显示界面上显示与当前标签对应的译文之后，还可以包括：显示第一切换键和/或第二切换键，具体地，在用户触发第一切换按键或者第二切换按键后，终端获得用户对第一切换键或第二切换键的触发操作，并根据触发操作切换显示标签及其对应的译文。具体而言，第一切换键可为前向切换按键，用户可通过点击图2d所示的前向切换按键查看上一条的标签及其对应的译文，第二切换键可为后向切换按键，用户通过点击图2d所示的后向切换按键查看下一条的标签及其对应的译文。

另外，在终端上显示待识别目标对象的标签和译文时，终端上还可以显示与类型信息对应的第一语音输出按钮，以用于根据用户对第一语音输出按钮的触发操作输出对应的语音；和/或显示与译文对应的第二语音输出按钮，以用于根据用户对第二语音输出按钮的触发操作输出对应的语音。例如，一个中国人在陪美国友人到颐和园游玩时，美国友人问中国用户当前景点为什么时，若用户自身也不知道当前景点，此时用户可通过随身携带的智能手机拍摄一张当前景点的图片，并在用户圈选当前景点后，终端将显示当前景点对应的标签和对应的英文译文，用户通过点击第二语言输出按钮后，终端将为用户播放对应的英文发音，通过语音播放外国友人即可获知当前的景点。

另外，在该实施例中，在用户获得目标对象对应的标签和译文之后，用户还可以通过网络向其他用户发送目标对象的类型信息及其译文，实现与其他用户的资源共享。例如，在用户通过如图2d所示的显示界面后，通过点击图2d中的分享按钮后，终端将为用户可打开一个如图3所示的用户界面，并且该用户界面中显示了微博、微信、朋友圈和短信等用户可以自由选择的分享方式，用户可任选其中的一种分享方式将对应目标对象的类型信息和译文分享给其他用户，由此，实现了用户之间的资源共享，提高用户之间的互动性。

例如，用户不知图4a所示的食物是什么，并且用户需要图4a所示的译文时，用户可通过如图4b所示的圈选方式或者如图4c所示的涂选方式选出图片中的目标对象，若用户选择如图4b所示的圈选的方式选出目标对象，终端将把用户圈选的目标对象外接矩形裁剪下，并将裁剪后的图片上述至图片识别系统，图片识别系统接收该图片，并提取该图片的局部特征描述子，然后与图片系统中预存的局部特征描述子进行比对，并获得与接收图片的局部特征描述子具有最多共同特征的局部特征描述子对应的类型信息“热干面”，将类型信息“热干面”作为该图片的类型信息发送至翻译系统，翻译系统将类型信息“热干面”作为用户输入的原文，根据预先建立的翻译模型获得该类型信息对应的英文译文为“Hot and drynoodles”，将图片的类型信息及其对应的译文“Hot and dry noodles”返回至终端，终端将显示如图4d所示的标签和该标签对应的英文译文，用户可以根据图4d的结果获知该食物为“热干面”，对应的英文译文为“Hot and dry noodles”，用户通过点击图4d的第二语音按钮，终端将语音播放对应的英文译文，由此，实现了即时使用和快速翻译的目标，同时方便了直接通过身边的各种物品和资料学习其他语言。

上述图像翻译方法实施例，在确定图片中的目标对象后，向图片识别系统发送目标对象的图片，以使图片识别系统识别出目标对象所属的类型信息，并向翻译系统发送类型信息以使翻译系统对类型信息进行翻译，以及接收并显示类型信息及其对应的译文，由此，提出了一种基于图像的图像翻译方式，在为用户提供图片识别功能的同时，提供了翻译功能，解决了用户有翻译需求时，无法获知当前物体是什么的问题，满足了用户基于图像进行翻译的需求。

图5是根据本发明另一个实施例的图像翻译方法的流程图。

如图5所示，该方法包括：

S501，获得用户拍摄的植物的图片，并从植物的图片中确定出待识别的植物。

具体地，若用户不知该植物是什么，但需要该植物对应的英文译文时，用户可通过终端拍摄一张如图6a所示的图片，并且可通过如图6b所示的圈选方式或者如图6c所示的涂选方式从图片中圈选出待识别的植物。

S502，向图片识别系统发送圈选的待识别的植物的图片，以使图片识别系统识别出待识别的植物所属的类型信息，并向翻译系统发送类型信息，以使翻译系统对类型信息进行翻译。

具体地，终端将用户圈选的如图6b所示的植物的图片的外接矩形剪裁下来，并将剪裁后的图片发送至图片识别系统，图片识别系统接收植物的图片，并将其放入已经训练好的识别模型中，已经训练好的识别模型会把这张植物的图片跟模型中已经存在的植物图片进行匹配，找到与其最相似的图片，并将最相似图片所属的标签“发财树”输出，也就是说，当前图片中的待识别的植物为“发财树”。另外，图片识别系统也可以将识别模型中与输入图片中植物相似的多个相似图片所属的标签输出，进一步而言，可按照与输入图片中植物相似的概率值的大小对多个相似图片进行排序，并将概率值大于预设阈值例如30％的多个相似图片对应的标签作为待识别植物的图片的标签。

在图片识别系统识别出待识别植物所属的类型信息后，图片识别系统将待识别植物所属的类型信息发送至翻译系统，翻译系统基于预先建立的翻译模型对类型信息进行翻译，并返回对应的译文。

具体地，翻译系统接收图片识别系统发送的植物的标签“发财树”，并将“发财树”作为用户输入翻译系统的原文，基于预先建立的翻译模型生成“发财树”对应的英文译文“Pachiramacrocarpa”。

若翻译系统接收多个标签，则翻译系统将基于预先建立的翻译模型对多个标签进行翻译，并将多个标签及其对应的译文返回至终端。

S504，接收并显示类型信息及类型信息对应的译文。

具体地，终端接收并显示如图6d所示的翻译结果，用户通过图6d可以获知当前植物的标签为“发财树”，并且“发财树”对应的英文译文为“Pachira macrocarpa”，若用户需要类型信息或者译文的发音，可通过点击如图6d所示的第一语音按钮或者第二语音按钮，终端将根据用户的触发操作对类型信息或者对应的英文译文进行发音，由此，使得用户可以直接利用身边的各种物品和资料进行学习。

另外，为了方便用户查看不同的类型信息及其对应的译文，终端中还显示第一切换键和/或第二切换键，具体地，在用户触发第一切换按键或者第二切换按键后，终端获得用户对第一切换键或第二切换键的触发操作，并根据触发操作切换显示标签及其对应的译文。具体而言，第一切换键可为前向切换按键，用户可通过点击图6d所示的前向切换按键查看上一条的标签及其对应的译文，第二切换键可为后向切换按键，用户可通过点击图6d所示的后向切换按键可查看下一条的标签及其对应的译文。

在该实施例中，在用户获得目标对象对应的标签和译文之后，用户还可以通过网络向其他用户发送目标对象的类型信息及其译文，实现与其他用户的资源共享。若用户点击了如图6d所示的分享按钮，终端将为用户显示一个如图3所示的用户界面，用户可以选择用户界面中的任意一种方式将植物的类型信息“发财树”和其对应的英文译文“Pachiramacrocarpa”分享给其他用户。

为了实现上述实施例，本发明还提出一种图像翻译系统。

图7是根据本发明一个实施例的图像翻译系统的结构示意图。

如图7所示，该图像翻译系统包括终端100、图片识别系统200和翻译系统300，其中：

上述终端100用于获得图片，从上述图片中确定出目标对象；向上述图片识别系统200发送上述目标对象的图片，接收并显示类型信息及其对应的译文；上述图片识别系统200用于对上述目标对象的图片进行识别，获得上述目标对象所属的类型信息，并向上述翻译系统300发送上述类型信息；上述翻译系统300用于对接收的上述类型信息进行翻译。

其中，终端100接收并显示的类型信息可以由图片识别系统200返回，也可以由翻译系统300返回，也就是说，终端100可接收并显示由翻译系统200返回的类型信息及其对应的译文，还可以接收并显示由图片识别系统200返回的类型信息和由翻译系统300返回的类型信息对应的译文。

其中，上述终端100可以为手机、平板电脑等具有摄像头模块的移动终端。上述目标对象可以包括但不限于动物、植物、景点、食物和人物等，例如，用户在跟外国友人游览颐和园时，当外国友人问用户当前的景点为什么时，若用户也不清楚当前的这些景点，此时，用户可通过随身携带的智能手机拍摄一张景点图片进行识别和翻译。

上述终端100具体用于获得用户从上述图片中圈选出的上述目标对象；或者获得用户从上述图片中涂抹出的上述目标对象。

上述图片识别系统200具体用于：基于预设的识别模型对上述目标对象的图片进行识别，获得上述目标对象所属的类型信息；或者从上述目标对象的图片提取出第一特征集，根据上述第一特征集查询预存的对象特征库，从上述对象特征库中找到与上述第一特征集具有最多共同特征的第二特征集，根据上述第二特征集确定出上述目标对象所属的类型信息。其中，上述识别模型可以包括但不限于神经网络模型，上述神经网络模型可以包括但不限于卷积神经网络和全连接神经网络，上述类型信息可以包括标签。

具体地，在终端100将目标对象的图片发送至图片识别系统200后，图片识别系统200将包含目标对象的图片输入识别预设的识别模型中，并将识别模型中与该图片最相似的图片对应的标签作为该图片标签输出，另外，上述图片识别系统200还可以将识别模型中与输入图片中目标对象多个相似图片所属的标签输出，进一步而言，可按照与输入图片中目标对象相似的概率值的大小对多个相似图片进行排序，并将概率值大于预设阈值例如30％的多个相似图片对应的标签返回作为输入图片的标签。

上述翻译系统300具体用于：基于翻译模型对上述类型信息进行翻译。

具体地，在用户通过终端100拍摄一张图片后，用户可通过圈选或者涂抹的方式确定图片中的目标对象，终端100将用户圈选或者涂抹的目标对象的图片发送至图片识别系统200，图片识别系统200基于预先建立的识别模型识别目标对象所属的标签，并将识别出的标签发送至翻译系统300，翻译系统300接收标签，并基于预先建立的翻译模型对标签进行翻译，并在翻译后，翻译系统300可将标签及其对应的译文返回至终端100，终端100将在对应于目标对象的显示界面上显示标签及其对应的译文。

另外，在终端100在在对应于目标对象的显示界面上显示标签及其对应的译文之后，上述终端100还用于：显示第一切换键和/或第二切换键；以及获得对上述第一切换键或上述第二切换键的触发操作，并根据上述触发操作切换显示标签及其对应的译文。

具体地，在终端100接收到多个标签及标签对应的译文时，为了方便用户查看多个标签及其对应的译文，上述终端100上还可以显示第一切换按键和/或第二切换按键，其中，第一切换按键可为前向切换按键，第二切换按键可为后向切换按键，并且在用户触发前向切换按键或者后向切换按键后，终端100根据用户的触发操作，切换显示其他的标签及其对应的译文。

另外，上述终端100还用于：显示与上述类型信息对应的第一语音输出按钮，以用于根据用户对上述第一语音输出按钮的触发操作输出对应的语音；和/或显示与上述译文对应的第二语音输出按钮，以用于根据用户对上述第二语音输出按钮的触发操作输出对应的语音。由此，方便用户通过语音学习当前目标对象对应的标签和译文的发音，方便用户使用和学习。

另外，上述终端100还用于：通过网络向其他用户发送上述目标对象的类型信息及其译文。具体地，在用户单击图2d、4d或者6d中所示的分享按键后，终端100将根据用户的触发操作提供一个如图3所示的用户界面，用户可通过微博、微信、朋友圈和短信等方式分享获得的目标对象的类型信息及其译文，由此，实现用户之间的资源共享，提高了用户之间的互动体验。

需要说明的是，上述对图像翻译方法实施例的解释说明也适用于该实施例的图像翻译系统，此处不赘述。

上述图像翻译系统实施例，终端获取图片中的目标对象，并将目标对象的图片发送给图片识别系统，图片识别系统接收并识别出图片中的目标对象所属的类型信息，并向翻译系统发送类型信息，以及翻译系统根据接收到的类型信息进行翻译，终端接收并显示类型信息及其对应的译文，提出了一种基于图像的图像翻译方式，在为用户提供图片识别功能的同时，提供了翻译功能，解决了用户有翻译需求时，无法获知当前物体是什么的问题，满足了用户基于图像进行翻译的需求。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种图像翻译方法，其特征在于，包括：

S1、获得图片，并从所述图片中确定出目标对象；

S2、向图片识别系统发送所述目标对象的图片，以使所述图片识别系统识别出所述目标对象所属的类型信息，并向翻译系统发送所述类型信息，以使所述翻译系统对所述类型信息进行翻译；以及

S3、接收并显示所述类型信息及所述类型信息对应的译文。

2.根据权利要求1所述的方法，其特征在于，所述从所述图片中确定出目标对象，包括：

获得用户从所述图片中圈选出的所述目标对象；或者

获得用户从所述图片中涂抹出的所述目标对象。

3.根据权利要求1所述的方法，其特征在于，所述目标对象所属的类型信息是所述图片识别系统基于预设的识别模型获得的。

4.根据权利要求3所述的方法，其特征在于，所述识别模型包括神经网络模型，所述神经网络模型包括卷积神经网络和全连接神经网络。

5.根据权利要求1所述的方法，其特征在于，所述译文为所述翻译系统基于翻译模型生成的。

6.根据权利要求1-5任一权利要求所述的方法，其特征在于，所述类型信息包括标签。

7.根据权利要求6所述的方法，其特征在于，所述S3包括：

在对应于所述目标对象的显示界面上显示所述标签及所述标签对应的译文。

8.根据权利要求7所述的方法，其特征在于，所述在对应于所述目标对象的显示界面上显示所述标签及其对应的译文之后，还包括：

显示第一切换键和/或第二切换键；以及

获得对所述第一切换键或所述第二切换键的触发操作，并根据所述触发操作切换显示标签及所述标签对应的译文。

9.根据权利要求8所述的方法，其特征在于，还包括：

显示与所述类型信息对应的第一语音输出按钮，以用于根据用户对所述第一语音输出按钮的触发操作输出对应的语音；和/或

显示与所述译文对应的第二语音输出按钮，以用于根据用户对所述第二语音输出按钮的触发操作输出对应的语音。

10.根据权利要求9所述的方法，其特征在于，在所述S3之后，还包括：

通过网络向其他用户发送所述目标对象的类型信息及其译文。

11.一种图像翻译系统，其特征在于，包括终端、图片识别系统和翻译系统，其中：

所述终端，用于获得图片，从所述图片中确定出目标对象；向所述图片识别系统发送所述目标对象的图片，接收并显示所述类型信息及所述类型信息对应的译文；

所述图片识别系统，用于对所述目标对象的图片进行识别，获得所述目标对象所属的类型信息，并向所述翻译系统发送所述类型信息；

所述翻译系统，用于对接收的所述类型信息进行翻译。

12.根据权利要求11所述的系统，其特征在于，所述终端，具体用于：

获得用户从所述图片中圈选出的所述目标对象；或者

获得用户从所述图片中涂抹出的所述目标对象。

13.根据权利要求11所述的系统，其特征在于，所述图片识别系统，具体用于：

基于预设的识别模型对所述目标对象的图片进行识别，获得所述目标对象所属的类型信息；或者

从所述目标对象的图片提取出第一特征集，根据所述第一特征集查询预存的对象特征库，从所述对象特征库中找到与所述第一特征集具有最多共同特征的第二特征集，根据所述第二特征集确定出所述目标对象所属的类型信息。

14.根据权利要求13所述的系统，其特征在于，所述识别模型包括神经网络模型，所述神经网络模型包括卷积神经网络和全连接神经网络。

15.根据权利要求11所述的系统，其特征在于，所述翻译系统，具体用于：基于翻译模型对所述类型信息进行翻译。

16.根据权利要求11-15任一权利要求所述的系统，其特征在于，所述类型信息包括标签。

17.根据权利要求16所述的系统，其特征在于，所述终端，还用于：在对应于所述目标对象的显示界面上显示所述标签及所述标签对应的译文。

18.根据权利要求17所述的系统，其特征在于，所述终端，还用于：

显示第一切换键和/或第二切换键；以及

19.根据权利要求18所述的系统，其特征在于，所述终端，还用于：

20.根据权利要求19所述的系统，其特征在于，所述终端，还用于：