CN101620680B

CN101620680B - 字符图像的识别和翻译方法以及装置

Info

Publication number: CN101620680B
Application number: CN200810135701.0A
Authority: CN
Inventors: 欧文武; 王炎; 陈又新; 罗恒亮; 王�华; 周迅溢; 文世涛
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2008-07-03
Filing date: 2008-07-03
Publication date: 2014-06-25
Anticipated expiration: 2028-07-03
Also published as: CN101620680A

Abstract

一种对图像或视频中的字符进行识别和翻译的方法和装置，所述方法包括步骤：获取包含一个或多个第一语言字符的图像或视频；从图像或者视频中检测每个第一语言字符的字符区域；对每个字符区域中的字符进行识别；将由识别出的字符构成的词条划分为多个预定类别之一，并采用与所划分的类别相对应的翻译规则，将词条翻译为第二或更多其他语言；以及显示翻译结果。采用本发明，能够方便快捷地通过移动终端自动识别和翻译自然场景图像或视频中的关键字符，比如路牌、广告、公告、菜单等中的相关说明。

Description

字符图像的识别和翻译方法以及装置

技术领域

本发明涉及图像处理和模式识别领域，具体涉及对自然场景中的比如菜单、路牌、公告、报纸等有关图像和视频中的字符等进行识别和翻译的方法和装置。

背景技术

照相机已经成为大部分移动终端的标准配置，伴随移动终端计算能力的增强，以前只能在PC机上实现的图像识别技术已经具备推广到移动终端的可能。例如，目前部分移动终端配备有名片自动识别功能。通过这种移动终端，可以方便地获取和处理图像或视频，大大提高了信息的自动获取和处理能力。随着带照相机的移动终端的普及，方便快捷地通过移动终端自动识别和翻译自然场景图像或视频中的关键字符，比如路牌、广告、公告、菜单等中的相关说明，已成为人们的迫切需求。Jie Yang，Jiang Gao等在文章“An Automatic SignRecognition and Translation System”中提到了一种路牌的自动翻译系统，该系统通过捕获路标图像自动提取和识别路牌信息，然后通过翻译模块，翻译为与路标对应的其他语言文字并给出相关信息，比如语音。专利文献US 20060217961给出了一种文档的自动翻译系统，其中输入文档图像经OCR系统识别转换为相应的文本，然后对文本进行分词操作，通过查找字典对各个词进行翻译，以完成整个文本的翻译。专利文献CN 200610027256中描述的方法包括拍摄需要翻译的外文文字信息图片、选定图片中的一闭合区域、对该闭合区域信息依次进行灰度化处理操作和闭合区域补充处理操作、进行文字字符识别和查询翻译处理、以及显示翻译结果，该方法利用对闭合区域信息依次进行灰度化处理操作来提取文本区域的字符。在专利文献CN03119716中，先从路牌图像中识别出部分或全部路牌字符，再根据路牌字符的识别结果或修改结果确定导游内容，这包括在一定范围的电子地图上显示路牌字符所指的地理位置、或选择汉语、英语等自然语言的文本或语音对路牌字符所指向的地点进行某些必要的信息翻译、说明和讲解。但是该系统只适用于路牌的情况，不能推广到其他运用场景。

上述现有方法只是部分解决了基于图像的字符识别和翻译问题，还存在一些缺陷。Jie Yang，Jiang Gao等及专利文献CN 03119716中的方法只适用于路牌的情况，不能推广到其他运用场景。专利文献CN200610027256中缺少字符自动检测处理，需要人工指定字符区域，实际运用价值较低，并且所谓的“闭合区域信息依次进行灰度化处理操作和闭合区域补充处理操作”限制了该方法的灵活性。而专利文献US 20060217961的方法只适合于简单的文档。

由于路牌、广告、公告、菜单等自然场景的相关图像或视频具有版面布局、字符类型和信息等种类多样的特点，目前还没有针对它们的很好解决方案。以菜单为例，菜单的识别和翻译需要解决的问题主要包括以下几点。

1、菜名和相关信息的获取：由于菜单名称数量庞大，手工输入菜单名，比如拼音或手写，相当费时间，尤其是对不熟悉菜单上语言的用户。

2、菜名字符的识别：大多数菜肴是以主料、配料、味道和烹饪方法等命名的，也有的以形象化或地域特征来命名的。需要针对菜名的特点来建立特殊的识别引擎。通过采用特殊的识别引擎提升菜名字符的识别可信度，同时降低非菜名字符的识别可信度，从而提高了菜名识别的准确率。菜名字符识别引擎是根据菜名字符训练得到的，不包含非菜名字符，所以对训练集(即菜名字符)的识别可信度会远高于非菜名字符。

3、菜名的匹配和翻译：由于菜名数量庞大，并且菜名本身也在不断推陈出新，先建立与菜名一一对应的词条和翻译词典不太可行。另外，因为菜名通常非常短，并没有固定的语法结构，所以通过语法分析和切词的方法也显然不适合菜名翻译。

4、可扩展性：菜单应该是可扩展和可更新的，例如用户可以新添和删除菜名，及其相应的翻译信息和图片。

发明内容

为解决上述问题，本发明提供了一种对图像或视频中的字符进行识别和翻译的方法及装置，通过该方法及装置可以对字符进行自动识别进而进行自动翻译或通过无线搜索引擎获取与菜名的更多相关信息。

根据本发明的一方面，一种对图像或视频中的字符进行识别和翻译的方法，包括步骤：

a.获取包含一个或多个第一语言字符的图像或视频；

b.从图像或者视频中检测每个第一语言字符的字符区域；

c.对每个字符区域中的字符进行识别；

d.将由识别出的字符构成的词条划分为多个预定类别之一，并采用与所划分的类别相对应的翻译规则，将词条翻译为第二或更多其他语言；以及

e.显示翻译结果。

优选地，在所述方法中，多个预定类别包括主料和配料类、主料和烹饪方法类、主料和味道类或形象化类。

优选地，对于主料和配料类，采用简单组合主料和配料的翻译结果的翻译规则；对于主料和烹饪方法类，采用将主料的翻译结果作为烹饪方法的翻译结果的宾语的翻译规则；对于主料和味道类，采用使用味道的翻译结果修饰主料的翻译结果的翻译规则；对于形象化类，则采用直接查找与整个词条相对应的翻译结果的翻译规则。

优选地，在所述方法中，翻译规则定义在翻译词典中。

优选地，在所述方法中，翻译词典包括通用翻译词典和/或特定翻译词典。

优选地，在所述方法中，通用翻译词典包括第一语言的多个词条、对应的第二或更多其他语言的词条以及与所述多个预定类别相对应的多个翻译规则。

优选地，在所述方法中，特定翻译词典只包括与感兴趣的词条相关的第一语言的多个词条、对应的第二或更多其他语言的词条以及与所述多个预定类别相对应的多个翻译规则。

优选地，在所述方法中，如果翻译词典还包括与第一语言的多个词条中的部分或全部相关的图像，则在翻译时还将所获取的图像或者视频中非字符区域内的图像与翻译词典中的图像进行匹配，

当所获取的图像或者视频中不存在字符区域且所述匹配步骤得到的匹配程度大于图像匹配阈值时，直接返回与图像对应的翻译结果，

当所获取的图像或者视频中存在字符区域且所述匹配步骤得到的匹配程度大于预定阈值时，合并与字符对应的翻译结果和与图像对应的翻译结果，作为最终翻译结果。

优选地，在所述方法中，用户可通过用户界面对翻译词典进行编辑。

优选地，在所述方法中，步骤b包括：

在图像或视频中，通过边缘提取算子提取并生成二值边缘图像；检测二值边缘图像的连通域，每一个连通域作为一个备选字符区域；以及根据每一个备选字符区域内部的图像特征，确定每个第一语言字符的字符区域。

优选地，上述过程使用的图像特征包括周长、面积、包含的边缘点数目、灰度直方图和方差中的一种或多种。

优选地，在所述方法中，步骤b的检测结果由包围每个字符区域的多边形表示。

优选地，在所述方法中，多边形的位置、大小和形状可由用户通过用户界面编辑或手动输入，以编辑检测结果。

优选地，在步骤c中，采用以全部第一语言字符的集合训练的通用OCR识别引擎进行识别，或者采用以特定的第一语言字符集合训练的专用OCR识别引擎进行识别。

优选地，在所述方法中，可根据OCR识别返回的可信度，只保留可信度高的字符识别结果；和/或可由用户通过用户界面编辑或手动输入字符识别结果。

优选地，在所述方法中，在类别划分中，采用快速动态时间规整算法，对由识别出的字符构成的词条与翻译词典中的词条进行匹配，并通过将两个词条之间的匹配程度与预定阈值相比较，将由识别出的字符构成的词条划分到所述预定类别之一。

优选地，在所述方法中，所述匹配程度由两个词条之间的字符距离表示，字符距离是指通过插入和删除操作是两个词条中的一个词条变得与另一词条相同而所需的最少操作次数。

优选地，所述方法在步骤c与步骤d之间还包括步骤：对检测到的字符区域进行版面分析，以将表示不同类型的信息的字符区域合并为不同的文本区域；以及对每个文本区域进行内容分析，以确定感兴趣的文本区域。

优选地，在所述方法中，版面分析和/或内容分析的结果可显示在用户界面上，以便用户对结果进行编辑。

优选地，在所述方法中，版面分析包括：计算字符区域之间的距离和相似程度，并将距离近且相似程度高的字符合并在一起。

优选地，在所述方法中，如果两个字符区域的中心之间的距离小于第一阈值，则两个字符区域的距离近，第一阈值是通过计算并统计每个字符区域与距离其最近的字符区域的中心距离而得到的距离直方图的峰值；

如果两个字符区域的图像特征差异小于第二阈值，则两个字符区域的相似程度高，第二阈值是通过计算并统计每对距离近的字符区域之间的图像特征差异而得到的差异直方图的峰值。

优选地，在所述方法中，在版面分析中使用的图像特征包括字符区域的高度和/或前景像素的平均灰度值。

优选地，在所述方法中，内容分析包括：计算每个文本区域中的词条与翻译词典中一个或多个词条的匹配程度，如果匹配程度大于设定的匹配阈值，则确定所述词条是感兴趣的词条。

优选地，在所述方法中，仅翻译感兴趣的词条；或者采用特定翻译词典翻译感兴趣的词条，而采用通用翻译词典翻译其他字符区域中的词条。

优选地，在所述方法中，如果无法从翻译词典中获得合适的翻译结果和/或需要查询词条的有关信息，则通过网络访问和/或与通信设备进行通信，来获得合适的翻译结果和/或有关信息。

根据本发明的另一方面，一种与上述方法相对应的、对图像或视频中的字符进行识别和翻译的装置。

根据本发明的另一方面，一种具有字符识别和翻译功能的终端设备，其能够使用上述对图像或视频中的字符进行识别和翻译的方法或者其上安装有上述对图像或视频中的字符进行识别和翻译的装置，该终端设备包括移动电话、PDA、摄像机、照相机、翻译器之一。

根据本发明的另一方面，上述对图像或视频中的字符进行识别和翻译的方法和/或装置在自然场景的图像或视频的识别和翻译中的应用，所述自然场景包括菜单、路牌、文档、广告、公告和/或报纸。

附图说明

结合附图，本发明的特征和优点将从以下详细描述中显而易见，

附图中：

图1示出了根据本发明优选实施例的菜单识别和翻译装置；

图2示出了上述菜单分析模块和菜单翻译模块的操作流程；以及

图3示出了针对菜名的翻译词典的示例。

具体实施方式

下面参照附图，详细描述本发明的优选实施例。注意，以下的实施例是以菜单为示例来描述的，但这仅作为示例，本发明不限于此，而可以推广到其他运用场景，比如路牌、广告、公告等自然场景的自动识别和翻译。

图1示出了根据本发明优选实施例的菜单识别和翻译装置，其具有图形用户界面，方便用户进行适当控制和操作。该装置的输入设备为图像或视频捕获模块(以下称为“图像捕获模块)，输出设备为可以显示图形用户界面的任何显示模块，比如触摸屏。图像捕获模块可以是比如照相机、摄像机、带摄像功能的手机和笔记本电脑等，其主要功能是捕获图像或视频，这里主要针对菜单的图像或视频。当用户启动菜单识别和翻译装置时，图像捕获模块随之启动，获取菜单的图像或视频。获取的菜单图像或视频在输出设备上显示，用户可以通过图形用户界面控制图像捕获模块的捕获操作，并可以在查看所显示的菜单图像或视频之后，选择进入后续的菜单识别和翻译操作或者选择重新拍摄。当然，也可以在拍摄之后直接进入后续操作。

接着，针对获取的图像或视频中的某个帧，由字符检测模块检测图像上的字符，并将检测结果显示在图形界面上。通常使用包围字符的多边形来表示检测结果。用户可以通过图形用户界面对该多边形的位置、大小、形状等进行编辑以修改字符检测结果，编辑可以包括删除或添加字符、以及/或者更改字符的位置、大小等。同时，用户也可以通过图形用户界面手动确定字符，比如通过触摸屏在图形用户界面上绘制出代表字符位置、大小等的多边形。这里，字符检测模块执行以下步骤来检测字符：

首先，通过canny边缘提取算子或其他任何已知的边缘提取算子，提取视频帧或图像的边缘，生成二值边缘图像；

其次，检测二值边缘图像的连通域，每一个连通域被当作一个备选字符；

最后，通过提取连通域内部的图像特征，包括周长、面积、包含的边缘点数量、灰度直方图，方差等特征，区分字符和非字符区域。

此时，还可以对字符个数进行统计，以用于后续处理。

然后，字符识别模块对检测到的字符进行识别，将其转化为相应语言的机器码，比如Unicode。这里的字符识别模块可以采用普通OCR识别引擎或菜名字符识别引擎。菜名字符识别引擎是针对菜名的特点来建立特殊的识别引擎，是以菜名中出现的字符作为训练字符集训练的。而普通OCR引擎是以全部字符集合(比如全部一级或/和二级汉字)训练的。众所周知，大多数菜肴是以主料、配料、味道和烹饪方法等命名的，比如辣子鸡丁、麻辣牛肉、回锅肉等，也有的以形象化或地域特征来命名的，比如八宝饭、德州扒鸡等。为了提高菜名的识别准确率，字符识别引擎是通过所有菜名中包含的字符训练得到的，即不包括不属于菜名的字符，比如“的”，“人”，这样对于属于菜名的字符识别可信度会比较高，而非菜名字符的识别可信度会变的非常低。因此，菜名字符识别引擎对训练集(即菜名字符)的识别可信度会远高于非菜名字符，而普通OCR引擎没有这种鉴别能力。

此外，还可以通过识别引擎返回的可信度，保留可信度高的字符识别结果，同时删除可信度低的字符识别结果。

接下来，在图形用户界面上显示可信度高的字符识别结果，用户可以通过图形用户界面对识别结果进行相应的删除、添加、修改等操作，然后菜单分析模块通过对检测和识别结果进行版面分析和菜单分析，提取菜名和非菜名字符信息，同样菜名和非菜名信息也会在图形用户界面上显示，比如属于菜名的字符用实线多边形表示，而其他信息用虚线多边形表示，用户可以通过图形用户界面修改多边形线条属性，来更改多边形内字符的类型。最后，由菜单翻译模块对菜名进行分类和翻译，通过查找翻译词典，得到不同类型的菜名的第二或其他多种语言的翻译结果，并通过图形用户界面显示在输出设备上。同时用户还可以通过图形用户界面对菜单的翻译词典进行编辑修改。稍后将参照图2详细说明菜单分析模块和菜单翻译模块的操作。

可以理解的是，上述菜单识别和翻译装置可以包括自动模式和手动模式。当用户不希望对字符检测、识别或翻译结果进行编辑时，可以选择自动模式，这时装置不会显示相应的编辑界面，而直接显示输入菜单的翻译结果。而选择手动模式时，装置会分步执行字符检测、识别和翻译，并显示相应的编辑界面，以便用户通过该界面对每一步的结果进行编辑。

可以理解的是，当用户对字符检测、识别或翻译结果不满意时，用户可以通过图形用户界面进入手动模式并返回上一步或前几步的操作，比如当用户对翻译结果不满意时，可以通过图形用户界面进入字符检测或字符识别的编辑界面，通过图形用户界面对字符检测或识别结果进行编辑，然后重新开始下一步识别或翻译操作。

可以理解的是，用户可以通过图形用户界面对翻译词典进行编辑，包括修改、删除或添加菜名、主料、味道、烹饪方法及其相应的翻译信息、图片信息等。

可以理解的是，如果该装置安装在计算机、PDA、手机等具有网络访问等通信功能的终端设备上，或者该装置具有通信模块，则用户可以将菜单图像、字符检测、识别或翻译结果发送到搜索服务器、直接连接搜索引擎或与其他设备进行通信，搜索与识别或翻译结果相关的信息，包括文本、图像、视频和语音等，这时图形用户界面包括可供用户选择将识别或翻译结果发送和接收信息的操作。此外，如果用户无法在翻译词典中查找到满意的翻译结果，用户可以进行网络访问，搜索相关翻译信息。

图2示出了上述菜单分析模块和菜单翻译模块的操作流程。首先，菜单分析模块对菜单的字符检测结果进行版面分析，区分其中包含的信息的类型，比如菜名，价格，介绍信息或其他。这里的版面分析是指基于图像特征，根据字符与字符之间的距离、字符字体、颜色等信息的相似程度，区分字符的类型，并合并相同类型的字符以形成有意义的文本区域。例如，如果价格和菜名在同一个文本区域，则不利于菜名的分类和翻译，因此通过版面分析，将属于菜名的字符合并到一个文本区域，而将属于价格的字符合并到另一个文本区域。这种基于图像特征的版面分析包括以下步骤：

1.获得通过上述字符检测得到的菜单图像中所有字符的个数；

2.计算每一个字符的高度和前景像素的平均灰度值，作为该字符的图像特征；

3.选择一个字符，以该字符为第一字符，开始向左或向右查找距离第一字符最近的字符，计算该字符中心到第一字符中心的距离，然后以该字符为第二字符，沿同一方向(假设方向为左)继续查找距离最近的字符，计算该字符中心到第二字符中心的距离，重复该操作，直到所有字符都经过了该处理，由此得到相应的距离直方图，提取距离直方图的峰值，并以距离直方图的峰值为基础确定第一阈值th_h；

4.如果一个字符在另外一个字符的左边，并且它们中心之间的距离小于第一阈值th_h，则采用欧式距离计算这两个字符的图像特征差异，并根据第一阈值th_h找到每个这种字符对并计算每对字符的图像特征差异，得到差异直方图，通过差异直方图的峰值确定第二阈值th_img；

5.如果一个字符在另外一个字符的左边，它们中心之间的距离小于第一阈值th_h并且这对字符的图像特征差异小于第二阈值th_img，则合并这两个字符形成文本行，该文本行的图像特征为被合并字符的图像特征的平均值，该文本行作为新的字符进行下一轮的合并直到再无可以合并的字符未知。

以上字符个数是通过字符检测得到的，但是可以理解的是，字符个数也可以是用户确定的或经用户编辑的。

以上采用字符的高度和前景像素的平均灰度值构成的矢量，作为字符的图像特征，但是可以理解的是，可以采用其中之一、或采用或添加其他任何适当的特征量。

以上合并方法是针对水平方向排列的字符而言，但是可以理解的是通过字符位置的±90°旋转就可以用来合并垂直方向排列的字符。

上述基于图像特征的版面分析主要考虑到，一般而言距离较近的字符属于同一内容或类型，比如菜名，价格等，而且同一内容或类型的字符具有相似的字符特征。通过这种版面分析，可以合并相同内容或类型的字符，区分菜名和价格等其他信息，有利于后续的菜名分类和翻译。

接下来是对版面分析的结果进行基于字符内容的菜单分析，这一步讨论前首先了解一下菜名的特点和针对菜名的翻译词典。

通常，菜名可以分为以下五类，

以菜肴的主料和配料为主的菜名，比如辣子鸡丁，黄瓜鸡片汤

以菜肴的主料和烹饪方法为主的菜名，比如回锅肉，红烧羊肉

以主料和味道为主的菜名，比如麻辣牛肉，椒盐鱼

半形象化的菜名，比如宫保大虾，海鲜火锅

完全形象化的菜名，比如八宝饭，大丰收

通过对以上五类的分析不难发现，对于前面四类菜名，可以通过按照材料、味道或烹饪方法将菜名分别归类，比如与材料相关的可以有草鱼系列、牛肉系列，与味道相关的可以有麻辣系列、咸鲜系列，与烹饪方法相关的可以有汤系列、水煮系列等。对于这些菜名的翻译，可以先分别建立主料、味道和烹饪方法的翻译词典或词典部分，翻译时通过分析菜名找到主料、味道和/或烹饪方法，查找相应的翻译词典或词典部分，通过组合就可以对这些菜名进行翻译了。这样就能够解决菜名经常更新、无统一命名标准、无法为所有菜名建立一一对应的翻译词典的难题。对于第五类完全形象化的菜名，由于菜名与材料、味道和烹饪方法都毫无关系，所以需要单独建立针对完整菜名的翻译词典或词典部分。此外，也可以通过搜索引擎获取菜名的相关信息。图3示出了针对菜名的翻译词典的示例，该翻译词典包括部分菜肴的完整菜名和几乎所有菜肴的烹饪方法、味道和主料的词条、以及对应的第二或更多语言的翻译和相应的翻译规则，其中翻译规则用来确定菜名翻译的方法，在下面的部分会详细的介绍。因为翻译词典包含了几乎所有有关菜名的词条，所以也可以使用翻译词典从菜单中提取菜名，这主要通过将菜单分析得到的各个文本区域的字符与菜名翻译词典内包含的完整菜名、烹饪方法、味道和主料等词条相比较，找出各个文本区域中与翻译词典中的词条对应的一个或多个字符。如果字符的内容与翻译词典中某一完整菜名的匹配程度大于设定的第三阈值，或者与翻译词典中某一主料的匹配程度大于设定的第四阈值并且同时与烹饪方法、主料和味道中一个且仅一个的匹配程度大于设定的第五阈值，则认为该字符的内容为菜名。以包括“杭椒牛柳”这四个字符的文本区域为例，首先将这个字符串与完整菜名的翻译词典或词典部分中的词条逐一比较，未发现匹配程度大于第三阈值的词条。然后，将其与主料的翻译词典或词典部分中的词条逐一比较，发现“杭椒”与相应词条匹配。接着考虑后两个字符，发现“牛柳”也与相应词条匹配。此时，判断出“杭椒牛柳”表示菜名。

上述对菜单的版面分析和基于字符内容的菜单分析可以看作是对字符检测和识别结果的后处理，用来区分菜名信息和非菜名信息，从而可以更加准确地找到表示菜名的字符，对其采用专门的菜名翻译引擎。而对于非菜名信息，则可以通过通用翻译引擎翻译或不做处理。

接着，菜单翻译模块进行菜名分类。菜名分类是通过菜名匹配实现的。在本实施例中，菜名匹配采用快速DTW(动态时间规整，DynamicTime Warping)算法，输入菜名与翻译词典中菜名的匹配是通过查找输入菜名与翻译词典中菜名之间的字符距离最小的方法来实现的。在本实施例中，字符距离是指通过插入和删除操作使其中一个字符串变得与另一字符串相同，该变换过程所必需的最少操作次数即为两字符串间的距离。如果输入菜名与翻译词典中的某一菜名匹配程度大于设定的第六阈值，则该输入菜名被分为类型一(在本实施例中，类型一是指第五类完全形象化的菜名)，否则分为类型二(在本实施例中，类型二是指前四类的菜名)。

然后进行菜名翻译。如果输入菜名为类型一，则查找翻译词典找到相应的第二或多种语言的对应翻译，这时翻译规则不起作用。如果菜名为类型二，则通过查找翻译词典找出相应的烹饪方法、主料或味道的对应翻译结果。这里，根据不同的情况按照下面的翻译规则进行翻译：

菜名只包含主料，比如杭椒牛柳，翻译方法为主料翻译的简单组合，比如a dish with A and B，杭椒牛柳的翻译为a dish withBeef Fillet and Hot Green Pepper。

菜名由烹饪方法和主料组成，比如水煮鱼，翻译方法是将主料对应的翻译作为烹饪方法对应翻译的宾语，比如“水煮鱼”翻译为Boiled fish with In Hot Chili Oil，而“水煮牛肉”翻译为Boiled beef In Hot Chili Oil。

菜名由味道和主料组成，比如香辣牛肉，翻译方法是用味道修饰主料，比如香辣牛肉的翻译为Spiced and Hot Beef。

可以理解的是，本发明的装置并不限于菜单的识别和翻译。通过修改翻译词典和翻译规则，该装置可以运用到其他自然场景。比如将翻译词典改为针对路牌的词典，该词典包括路牌的有关翻译词条及翻译规则，则该装置能够根据翻译词典提供的词条自动识别出路牌上包括的路名等字符，并按照指定的翻译规则翻译。如果将翻译词典和翻译规则改为通用的翻译引擎，则该装置可以对一般的场景字符进行识别和翻译，比如一般文档、广告或公告等。

在本发明的另一优选实施例中，菜名翻译词典不仅包括部分菜肴的完整菜名和几乎所有菜肴的烹饪方法、味道和主料的词条、以及对应的第二或更多语言的翻译和相应的翻译规则，还包括部分菜肴的图像或图像特征。此时，菜单识别和翻译装置还可以具有图像匹配模块。如果输入的图像或视频帧只包含菜肴的图像，则图像匹配模块对输入图像或视频帧或者其图像特征与词典内的图像或其图像特征进行比较，得到两者的相似程度，例如，可以采用计算图像特征的欧氏距离来表示两幅图像的相似程度。如果相似程度大于设定的阈值，则返回菜名的翻译和相关信息。此外，如果输入的图像或视频帧包括菜肴的图像和字符，则按照前述实施例，首先区分字符区域与非字符区域之后，然后对字符区域进行前述实施例中的处理，而图像匹配模块对非字符区域进行图像或图像特征的比较处理。最后，合并这两种处理的翻译结果，例如采用加权平均来进行合并。这种字符识别与图像匹配相结合的方式可以处理未包含字符的菜肴图像，进一步扩展了运用范围，并且可以提高字符识别和翻译的准确度。

可以理解的是，用户可以通过图像用户界面对翻译词典进行编辑，包括修改、删除或添加菜名及菜肴的图像或图像特征、主料、味道、烹饪方法的有关词条及其相应的第二或更多语言的翻译、翻译规则等信息。

虽然参照实施例具体示出并描述了本发明，但是本发明不限于上述实施例。本领域普通技术人员将理解，在不背离由权利要求限定的本发明精神和范围的前提下可以进行形式和细节上的多种改变。

Claims

1.一种对图像或视频中的字符进行识别和翻译的方法，包括步骤：

a.获取包含一个或多个第一语言字符的图像或视频；

b.从图像或者视频中检测每个第一语言字符的字符区域；

c.对每个字符区域中的字符进行识别；

d.将由识别出的字符构成的词条划分为多个预定类别之一，并采用与所划分的类别相对应的包含在翻译词典中的翻译规则，将词条翻译为第二或更多其他语言；以及

e.显示翻译结果；

其中，所述翻译词典还包括与第一语言的多个词条中的部分或全部相关的图像，所述步骤d还包括：对非字符区域进行图像比较处理，并合并对字符区域的翻译结果和对非字符区域的翻译结果；

其中，在步骤c与步骤d之间还包括步骤：

对检测到的字符区域进行版面分析，以将表示不同类型的信息的字符区域合并为不同的文本区域，其中所述版面分析包括：计算字符区域之间的距离和相似度，并将距离近且相似程度高的字符合并在一起，其中如果两个字符区域的中心之间的距离小于第一阈值，则两个字符区域的距离近，第一阈值是通过计算并统计每个字符区域与距离其最近的字符区域的中心距离而得到的距离直方图的峰值；如果两个字符区域的图像特征差异小于第二阈值，则两个字符区域的相似程度高，第二阈值是通过计算并统计每对距离近的字符区域之间的图像特征差异而得到的差异直方图的峰值；以及

对每个文本区域进行内容分析，以确定感兴趣的文本区域。

2.根据权利要求1所述的方法，其中所述多个预定类别包括主料和配料类、主料和烹饪方法类、主料和味道类或形象化类。

3.根据权利要求2所述的方法，其中，对于主料和配料类，采用简单组合主料和配料的翻译结果的翻译规则。

4.根据权利要求2所述的方法，其中，对于主料和烹饪方法类，采用将主料的翻译结果作为烹饪方法的翻译结果的宾语的翻译规则。

5.根据权利要求2所述的方法，其中，对于主料和味道类，采用使用味道的翻译结果修饰主料的翻译结果的翻译规则。

6.根据权利要求2所述的方法，其中，对于形象化类，则采用直接查找与整个词条相对应的翻译结果的翻译规则。

7.根据权利要求1所述的方法，其中翻译词典包括通用翻译词典和/或特定翻译词典。

8.根据权利要求7所述的方法，其中通用翻译词典包括第一语言的多个词条、对应的第二或更多其他语言的词条以及与所述多个预定类别相对应的多个翻译规则。

9.根据权利要求7所述的方法，其中特定翻译词典只包括与感兴趣的词条相关的第一语言的多个词条、对应的第二或更多其他语言的词条以及与所述多个预定类别相对应的多个翻译规则。

10.根据权利要求7所述的方法，其中用户可通过用户界面对翻译词典进行编辑。

11.根据权利要求1所述的方法，其中，步骤b包括：

在图像或视频中，通过边缘提取算子提取并生成二值边缘图像；

检测二值边缘图像的连通域，每一个连通域作为一个备选字符区域；以及

根据每一个备选字符区域内部的图像特征，确定每个第一语言字符的字符区域。

12.根据权利要求11所述的方法，其中，所述图像特征包括周长、面积、包含的边缘点数目、灰度直方图和方差中的一种或多种。

13.根据权利要求1所述的方法，其中，步骤b的检测结果由包围每个字符区域的多边形表示。

14.根据权利要求13所述的方法，其中，多边形的位置、大小和形状可由用户通过用户界面编辑或手动输入，以编辑检测结果。

15.根据权利要求1所述的方法，其中，在步骤c中，采用以全部第一语言字符的集合训练的通用OCR识别引擎进行识别，或者采用以特定的第一语言字符集合训练的专用OCR识别引擎进行识别。

16.根据权利要求15所述的方法，其中，根据OCR识别返回的可信度，只保留可信度高的字符识别结果；和/或

可由用户通过用户界面编辑或手动输入字符识别结果。

17.根据权利要求4所述的方法，其中，在类别划分中，采用快速动态时间规整算法，对由识别出的字符构成的词条与翻译词典中的词条进行匹配，并通过将两个词条之间的匹配程度与预定阈值相比较，将由识别出的字符构成的词条划分为所述多个预定类别之一。

18.根据权利要求17所述的方法，其中，所述匹配程度由两个词条之间的字符距离表示，字符距离是指通过插入和删除操作使两个词条中的一个词条变得与另一词条相同而所需的最少操作次数。

19.根据权利要求1所述的方法，其中将版面分析和/或内容分析的结果显示在用户界面上，以便用户对结果进行编辑。

20.根据权利要求1所述的方法，其中在所述版面分析中使用的图像特征包括字符区域的高度和/或前景像素的平均灰度值。

21.根据权利要求1所述的方法，其中内容分析包括：计算每个文本区域中的词条与翻译词典中一个或多个词条的匹配程度，如果匹配程度大于设定的匹配阈值，则确定所述词条是感兴趣的词条。

22.根据权利要求21所述的方法，其中，仅翻译感兴趣的词条；或者采用特定翻译词典翻译感兴趣的词条，而采用通用翻译词典翻译其他字符区域中的词条。

23.根据权利要求1所述的方法，其中，如果无法从翻译词典中获得合适的翻译结果和/或需要查询词条的有关信息，则通过网络访问和/或与通信设备进行通信，来获得合适的翻译结果和/或有关信息。

24.一种对图像或视频中的字符进行识别和翻译的装置，包括：

图像捕获模块，用于获取包含一个或多个第一语言字符的图像或视频；

检测模块，用于从图像或者视频中检测每个第一语言字符的字符区域；

识别模块，用于对每个字符区域中的字符进行识别；

翻译模块，用于将由识别出的字符构成的词条划分为多个预定类别之一，并采用与所划分的类别相对应的包含在翻译词典中的翻译规则，将词条翻译为第二或更多其他语言；以及

显示模块，用于显示翻译结果；

其中，所述翻译词典还包括与第一语言的多个词条中的部分或全部相关的图像，所述装置还包括图像匹配模块，对非字符区域进行图像比较处理，并合并对字符区域的翻译结果和对非字符区域的翻译结果；

所述装置还包括分析模块，对检测到的字符区域进行版面分析，以将表示不同类型的信息的字符区域合并为不同的文本区域，并对每个文本区域进行内容分析，以确定感兴趣的文本区域，其中所述版面分析包括：计算字符区域之间的距离和相似度，并将距离近且相似程度高的字符合并在一起，其中，如果两个字符区域的中心之间的距离小于第一阈值，则两个字符区域的距离近，第一阈值是通过计算并统计每个字符区域与距离其最近的字符区域的中心距离而得到的距离直方图的峰值；如果两个字符区域的图像特征差异小于第二阈值，则两个字符区域的相似程度高，第二阈值是通过计算并统计每对距离近的字符区域之间的图像特征差异而得到的差异直方图的峰值。