CN103632388A

CN103632388A - 图像语义标注的方法、装置和客户端

Info

Publication number: CN103632388A
Application number: CN201310703723.3A
Authority: CN
Inventors: 潘屹峰; 夏添
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2013-12-19
Filing date: 2013-12-19
Publication date: 2014-03-12

Abstract

本发明提出一种图像语义标注的方法、装置和客户端，其中，该方法包括以下步骤：提取图像中的文字信息；根据文字信息生成标注信息；以及根据标注信息对图像进行标注。本发明实施例的方法，一方面可以省去传统的图像语义标注方法中通过人工筛选图像类别训练分类器的过程，节省了人力和时间，避免了图像的低层特征和语义信息之间的语义鸿沟，提高了图像语义标注的稳定性和一致性。另一方面可以克服语义标签有限的固有问题，提高图像语义标识的完整性，使语义标注信息更加精确地描述图像中的内容，同时提高了图像语义标注时的速度。

Description

图像语义标注的方法、装置和客户端

技术领域

本发明涉及计算机技术领域，尤其涉及一种图像语义标注的方法、装置和客户端。

背景技术

图像语义自动标注是指利用计算机视觉技术，让计算机对图像中的内容进行理解，从而给图像自动标注出文本语义的过程。也就是说，图像语义自动标注是使计算机对图像的语义进行准确地描述和理解的过程，其本质上就是建立图像和文本语义之间的关联。图像语义自动标注通常用于图像检索、图像分类和相册管理等不同的场景。

目前，图像语义自动标注方法通常采用模式分类的方法建立图像和文本语义之间的关联。具体来说，每个分类类别均对应一个文本关键词（也称作特定语义类别），同时抽取图像的低层特征，例如，局部纹理、颜色、结构等特征，作为图像的特征标识，并且通过机器学习中的分类方法建立图像和特定语义类别之间的关联。

目前，现有的图像语义自动标注的方法存在以下三点问题：1）、现有的图像语义自动标注方法是将图像的语义标注作为分类问题来解决的，通常需要人工事先选择、标注语义类别，才能训练语义分类器。因此，对每个类别进行图像的人工标注费时费力，并且其无法穷尽整个语义空间，导致图像的语义描述很不完整；2）、每个语义类别均对应一个语义分类器，在对图像进行语义标注时，需要将所有的语义分类器进行测试，从中挑选置信度较高的语义类别作为图像的语义标注。但是如果语义类别数目巨大，则对图像进行语义标注时的计算量也会非常巨大，从而使现有的图像语义自动标注的方法无法在实时性要求较高的场景中应用；3）、在抽取的图像的低层特征到语义信息之间存在语义鸿沟，因此，现有的图像语义自动标注的方法在获取语义类别时，具有的稳定和一致性都很差。

发明内容

本发明旨在至少解决上述技术问题之一。

为此，本发明的第一个目的在于提出一种图像语义标注的方法。该方法一方面可以省去传统的图像语义标注方法中通过人工筛选图像类别训练分类器的过程，节省了人力和时间，避免了图像的低层特征和语义信息之间的语义鸿沟，提高了图像语义标注的稳定性和一致性。另一方面可以克服语义标签有限的固有问题，提高图像语义标识的完整性，使语义标注信息更加精确地描述出图像中的内容，同时提高了图像语义标注时的速度。

本发明的第二个目的在于提出一种图像语义标注的装置。

本发明的第三个目的在于提出一种客户端。

为了实现上述目的，本发明第一方面实施例的图像语义标注的方法，包括以下步骤：提取图像中的文字信息；根据所述文字信息生成标注信息；以及根据所述标注信息对所述图像进行标注。

本发明实施例的图像语义标注的方法，通过提取图像中的文字信息，并根据文字信息生成的标注信息对图像语义进行标注，一方面可以省去传统的图像语义标注方法中通过人工筛选图像类别训练分类器的过程，节省了人力和时间，避免了图像的低层特征和语义信息之间的语义鸿沟，提高了图像语义标注的稳定性和一致性。另一方面可以克服语义标签有限的固有问题，提高图像语义标识的完整性，使语义标注信息更加精确地描述出图像中的内容，同时提高了图像语义标注时的速度。

为了实现上述目的，本发明第二方面实施例的图像语义标注的装置，包括：提取模块，用于提取图像中的文字信息；生成模块，用于根据所述文字信息生成标注信息；以及标注模块，用于根据所述标注信息对所述图像进行标注。

本发明实施例的图像语义标注的装置，通过提取图像中的文字信息，并根据文字信息生成的标注信息对图像语义进行标注，一方面可以省去传统的图像语义标注方法中通过人工筛选图像类别训练分类器的过程，节省了人力和时间，避免了图像的低层特征和语义信息之间的语义鸿沟，提高了图像语义标注的稳定性和一致性。另一方面可以克服语义标签有限的固有问题，提高图像语义标识的完整性，使语义标注信息更加精确地描述出图像中的内容，同时提高了图像语义标注时的速度。

为了实现上述目的，本发明第三方面实施例的客户端，包括本发明第二方面实施例的图像语义标注的装置。

本发明实施例的客户端，通过提取图像中的文字信息，并根据文字信息生成的标注信息对图像语义进行标注，一方面可以省去传统的图像语义标注方法中通过人工筛选图像类别训练分类器的过程，节省了人力和时间，避免了图像的低层特征和语义信息之间的语义鸿沟，提高了图像语义标注的稳定性和一致性。另一方面可以克服语义标签有限的固有问题，提高图像语义标识的完整性，使语义标注信息更加精确地描述出图像中的内容，同时提高了图像语义标注时的速度。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中，

图1是本发明一个实施例的图像语义标注的方法的流程图；

图2是本发明一个具体实施例的图像语义标注的方法的流程图；

图3是本发明另一个具体实施例的图像语义标注的方法的流程图；

图4是本发明一个实施例的图像语义标注的装置的结构示意图；

图5是本发明一个具体实施例的图像语义标注的装置的结构示意图；

图6是本发明另一个具体实施例的图像语义标注的装置的结构示意图；以及

图7是本发明又一个具体实施例的图像语义标注的装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

下面参考附图描述本发明实施例的图像语义标注的方法、装置和客户端。

目前，图像语义自动标注方法通常采用模式分类的方法建立图像和文本语义之间的关联。然而，现有的图像语义自动标注的方法，通常需要人工事先选择、标注语义类别的方法对例如数据库中的图像进行标注，并且在对图像进行语义标注时，需要对所有的语义类型进行测试。因此，每个类别进行图像的人工标注费时费力，并且其无法穷尽整个语义空间，容易出现图像的语义描述不完整的现象。如果可以通过直接对图像中的文字信息进行识别，然后根据文字信息生成标注信息对图像语义进行标注，可以省去传统的图像语义标注方法中通过人工筛选图像类别训练分类器的过程，节省了人力和时间，避免了图像的低层特征和语义信息之间存在语义鸿沟导致标注的稳定和一致性差的缺陷。为此，本发明提出了一种图像语义标注的方法。

一种图像语义标注的方法，包括以下步骤：提取图像中的文字信息；根据文字信息生成标注信息；以及根据标注信息对图像进行标注。

图1是本发明一个实施例的图像语义标注的方法的流程图，图2是本发明一个具体实施例的图像语义标注的方法的流程图。

如图1和图2所示，图像语义标注的方法包括以下步骤。

S11，提取图像中的文字信息。

具体地，首先可对图像中的文字区域进行定位，其中，对图像中文字区域的定位方法可通过现有的方法实现，此处不再赘述。然后，可利用例如光学字符识别OCR（Optical CharacterRecognition）的方法对图像中的文字区域进行分析，以获取图像中的文字信息。其中，光学字符识别OCR是一种可以将图像中文字内容提取出来，并将其文字内容转换成计算机可以识别的文本内容的方法。

S12，根据文字信息生成标注信息。

在本发明的一个实施例中，步骤S12具体包括以下步骤。

S121，对文字信息进行分词以获取至少一个分词，并获取至少一个分词的语义内容和语义类型。

具体地，可通过例如自然语言处理NLP（Natural Language Processing)方法对图像中的文字信息进行分析，并对图像中提取出的文字信息进行切分，获取文字信息中的多个分词，例如，路牌、门牌、商品标签、菜单等。其中，自然语言处理方法是计算机对文字信息进行语言信息处理的一种方法，用于使计算机可以理解和接受人类用自然语言输入的指令，完成从一种语言到另一种语言的翻译的功能。语义内容是分词对应的具有含义的语义信息，语义类型是语义信息的类型，例如，分词的词性、分词所表示的意义等。

S122，根据语义内容和语义类型对至少一个分词进行筛选以将筛选之后的分词加入至语义信息集合。

在本发明的一个实施例中，分别根据每个分词对应的语义内容和语义类型在数据库中进行查询，如果查询到分词对应的语义内容和语义类型，则将分词加入至语义信息集合。其中，数据库例如可以是服务提供商预先建立的，服务提供商可在数据库中预设多个具有实际意义的语义内容和对应的语义类别。也就是说，服务提供商可在数据库中预存多个具有可对图像进行标注的具有实际意义的单词或者短语。具体地，可分别将每个分词的语义内容和语义类型在数据库中进行查询和/或匹配，如果查询和/或匹配到数据库中存在该语义内容和语义类型，则将该分词加入至语义信息集合中。

在本发明的一个实施例中，分别判断每个分词对应的语义内容和数据库中关键词的相似度是否超过预设阈值，如果超过预设阈值，则将分词加入至语义信息集合。具体地，服务提供商还可在数据库中预存多个关键词，在分别根据每个分词对应的语义内容和语义类型在数据库中进行查询之后，还可利用例如相似词匹配的方法分别将之前没有要查询到的分词和数据库中预设的关键词进行相似词匹配。如果该分词和某个关键词的相似度超过了预设阈值，也就是说该分词也有可能可以用于对图像进行标注，则将该分词也加入至语义信息集合中。由此，可以进一步提高对图像语义进行标注的精确度。其中，预设阈值可以是系统中默认的，或者根据不同的需求在系统中预设的。

S123，根据语义信息集合生成标注信息。

具体地，可对加入至语义信息集合中的多个分词进行分析，生成用于对图像语义进行准确描述信息，作为对图像语义进行标注的标注信息。

S13，根据标注信息对图像进行标注。

应当理解，本发明实施例中的方法不仅适用于客户端，同样适用于服务器。也就是说，可以在客户端中通过提取图像的文字信息，并对文字信息进行分析生成标注信息，对图像语义进行标注。或者还可以客户端将图像发送至服务器，由服务器通过提取图像的文字信息，并对文字信息进行分析生成标注信息，然后，服务器将生成的标注信息发送至客户端，以使客户端完成图像语义的标注。

为了更加准确地对图像内容进行标注，还可以通过获取图像中的例如局部纹理、颜色、结构等图像特征信息，并且通过传统的图像语义标注方法中的分类模型，对加入语义信息集合中的多个分词进行进一步的校检，由此，可以进一步使语义标注信息更加精确地描述图像中的内容，进一步提高图像语义标注的精确度。图3是本发明另一个具体实施例的图像语义标注的方法的流程图。

如图3所示，图像语义标注的方法包括以下步骤。

S31，提取图像中的文字信息。

S32，根据文字信息生成标注信息。

在本发明的一个实施例中，步骤S32具体包括以下步骤。

S321，对文字信息进行分词以获取至少一个分词，并获取至少一个分词的语义内容和语义类型。

S322，根据语义内容和语义类型对至少一个分词进行筛选以将筛选之后的分词加入至语义信息集合。

在本发明的一个实施例中，分别根据每个分词对应的语义内容和语义类型在数据库中进行查询，如果查询到分词对应的语义内容和语义类型，则将分词加入至语义信息集合。

在本发明的一个实施例中，分别判断每个分词对应的语义内容和数据库中关键词的相似度是否超过预设阈值，如果超过预设阈值，则将分词加入至语义信息集合。

S33，提取图像的图像特征信息。

其中，图像特征信息可包括但不限于图像的局部纹理、颜色、结构等。

S34，根据图像特征信息和语义信息集合中的分词生成标注信息。

具体地，根据图像特征信息结合传统的图像语义标注方法中的分类模型，分别对语义信息集合中的每个分词进行查询和/或匹配，如果匹配到该分词，则将该分词保留在语义信息集合中，如果未匹配到该分词，则将该分词从语义信息集合中移除。在所有分词均和分类模型匹配完成后，根据语义信息集合中剩余的分词生成对图像语义进行标注的标注信息。

S35，根据标注信息对图像进行标注。

本发明实施例的图像语义标注的方法，通过获取图像中的例如局部纹理、颜色、结构等图像特征信息，并且通过传统的图像语义标注方法中的分类模型，对加入语义信息集合中的多个分词进行进一步的校检，由此，可以进一步使语义标注信息更加精确地描述出图像中的内容，进一步提高了图像语义标注的精确度。

为了实现上述实施例，本发明还提出一种图像语义标注的装置。

一种图像语义标注的装置，包括：提取模块，用于提取图像中的文字信息；生成模块，用于根据文字信息生成标注信息；以及标注模块，用于根据标注信息对图像进行标注。

图4是本发明一个实施例的图像语义标注的装置的结构示意图。

如图4所示，图像语义标注的装置包括：提取模块100、生成模块200、标注模块300。

具体地，提取模块100用于提取图像中的文字信息。更具体地，首先提取模块100可对图像中的文字区域进行定位，其中，对图像中文字区域的定位方法可通过现有的方法实现，此处不再赘述。然后，提取模块100可利用例如光学字符识别OCR（Optical CharacterRecognition）的方法对图像中的文字区域进行分析，以获取图像中的文字信息。其中，光学字符识别OCR是一种可以将图像中文字内容提取出来，并将其文字内容转换成计算机可以识别的文本内容的方法。

生成模块200用于根据文字信息生成标注信息。

标注模块300用于根据标注信息对图像进行标注。

图5是本发明一个具体实施例的图像语义标注的装置的结构示意图。

如图5所示，图像语义标注的装置包括：提取模块100、生成模块200、标注模块300，其中，生成模块200包括：获取单元210、筛选单元220和生成单元230。

具体地，获取单元210用于对文字信息进行分词以获取至少一个分词，并获取至少一个分词的语义内容和语义类型。具体地，获取单元210可通过例如自然语言处理NLP（NaturalLanguage Processing)方法对图像中的文字信息进行分析，并对图像中提取出的文字信息进行切分，获取文字信息中的多个分词，例如，路牌、门牌、商品标签、菜单等。其中，自然语言处理方法是计算机对文字信息进行语言信息处理的一种方法，用于使计算机可以理解和接受人类用自然语言输入的指令，完成从一种语言到另一种语言的翻译的功能。语义内容是分词对应的具有含义的语义信息，语义类型是语义信息的类型，例如，分词的词性、分词所表示的意义等。

筛选单元220用于根据语义内容和语义类型对至少一个分词进行筛选以将筛选之后的分词加入至语义信息集合。

生成单元230用于根据语义信息集合生成标注信息。具体地，生成单元230可对加入至语义信息集合中的多个分词进行分析，生成用于对图像语义进行准确描述信息，作为对图像语义进行标注的标注信息。

本发明实施例的图像语义标注的装置，通过对文字信息进行分词以获取至少一个分词和其对应的语义内容和语义类型，并对分词进行筛选，由此，可以根据筛选后的分词生成标注信息。

图6是本发明另一个具体实施例的图像语义标注的装置的结构示意图。

如图6所示，图像语义标注的装置包括：提取模块100、生成模块200、标注模块300，其中，生成模块200包括：获取单元210、筛选单元220和生成单元230，其中，筛选单元220包括：查询子单元221、第一添加子单元222、判断子单元223和第二添加子单元224。

具体地，查询子单元221用于分别根据每个分词对应的语义内容和语义类型在数据库中进行查询。其中，数据库例如可以是服务提供商预先建立的，服务提供商可在数据库中预设多个具有实际意义的语义内容和对应的语义类别。也就是说，服务提供商可在数据库中预存多个具有可对图像进行标注的具有实际意义的单词或者短语。更具体地，查询子单元221可分别将每个分词的语义内容和语义类型在数据库中进行查询和/或匹配。

第一添加子单元222用于在查询到分词对应的语义内容和语义类型时，将分词加入至语义信息集合。具体地，查询子单元221在数据库中查询和/或匹配到分词对应的语义内容和语义类型时，第一添加子单元222将该分词加入至语义信息集合中。

判断子单元223用于分别判断每个分词对应的语义内容和数据库中关键词的相似度是否超过预设阈值。具体地，服务提供商还可在数据库中预存多个关键词，在分别根据每个分词对应的语义内容和语义类型在数据库中进行查询之后，判断子单元223还可利用例如相似词匹配的方法分别将之前没有要查询到的分词和数据库中预设的关键词进行相似词匹配。

第二添加子单元224用于在每个分词对应的语义内容和数据库中关键词的相似度超过预设阈值时，将分词加入至语义信息集合。具体地，如果判断子单元223判断该分词和某个关键词的相似度超过了预设阈值，也就是说该分词也有可能可以用于对图像进行标注，则第二添加子单元224将该分词也加入至语义信息集合中。由此，可以进一步提高对图像语义进行标注的精确度。其中，预设阈值可以是系统中默认的，或者根据不同的需求在系统中预设的。

本发明实施例的图像语义标注的装置，通过分别根据每个分词对应的语义内容和语义类型在数据库中进行查询，或者判断每个分词对应的语义内容和数据库中关键词的相似度是否超过预设阈值，可将具有实时意义用于图像语义标注的分词加入至语义信息集合。

如图7所示，图像语义标注的装置包括：提取模块100、生成模块200、标注模块300，其中，生成模块200包括：获取单元210、筛选单元220和生成单元230，其中，筛选单元220包括：查询子单元221、第一添加子单元222、判断子单元223和第二添加子单元224，生成单元230包括：提取子单元231和生成子单元232。

具体地，提取子单元231用于提取图像的图像特征信息。其中，图像特征信息可包括但不限于图像的局部纹理、颜色、结构等。

生成子单元232用于根据图像特征信息和语义信息集合中的分词生成标注信息。更具体地，根据图像特征信息结合传统的图像语义标注方法中的分类模型，分别对语义信息集合中的每个分词进行查询和/或匹配，如果匹配到该分词，则将该分词保留在语义信息集合中，如果未匹配到该分词，则将该分词从语义信息集合中移除。在所有分词均和分类模型匹配完成后，生成子单元232根据语义信息集合中剩余的分词生成对图像语义进行标注的标注信息。

本发明实施例的图像语义标注的装置，通过获取图像中的例如局部纹理、颜色、结构等图像特征信息，并且通过传统的图像语义标注方法中的分类模型，对加入语义信息集合中的多个分词进行进一步的校检，由此，可以进一步使语义标注信息更加精确地描述出图像中的内容，进一步提高了图像语义标注的精确度。

为了实现上述实施例，本发明还提出一种客户端。

一种客户端，包括本发明第二方面实施的图像语义标注的装置。

应当理解，客户端可为例如是个人计算机PC、手机、平板电脑、个人数字助理、电子书等具有各种操作系统的硬件设备。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种图像语义标注的方法，其特征在于，包括以下步骤：

提取图像中的文字信息；

根据所述文字信息生成标注信息；以及

根据所述标注信息对所述图像进行标注。

2.如权利要求1所述的方法，其特征在于，所述根据文字信息生成标注信息具体包括：

对所述文字信息进行分词以获取至少一个分词，并获取所述至少一个分词的语义内容和语义类型；

根据所述语义内容和语义类型对所述至少一个分词进行筛选以将筛选之后的分词加入至语义信息集合；以及

根据所述语义信息集合生成标注信息。

3.如权利要求2所述的方法，其特征在于，所述根据语义内容和语义类型对所述至少一个分词进行筛选以将筛选之后的分词加入至语义信息集合具体包括：

分别根据每个分词对应的语义内容和语义类型在数据库中进行查询；以及

如果查询到分词对应的语义内容和语义类型，则将所述分词加入至所述语义信息集合。

4.如权利要求2所述的方法，其特征在于，数据库中包括多个关键词，所述根据语义内容和语义类型对所述至少一个分词进行筛选以将筛选之后的分词加入至语义信息集合具体包括：

分别判断每个分词对应的语义内容和所述数据库中关键词的相似度是否超过预设阈值；以及

如果超过所述预设阈值，则将所述分词加入至所述语义信息集合。

5.如权利要求2所述的方法，其特征在于，所述根据语义信息集合生成标注信息具体包括：

提取所述图像的图像特征信息；以及

根据所述图像特征信息和所述语义信息集合中的分词生成所述标注信息。

6.一种图像语义标注的装置，其特征在于，包括：

提取模块，用于提取图像中的文字信息；

生成模块，用于根据所述文字信息生成标注信息；以及

标注模块，用于根据所述标注信息对所述图像进行标注。

7.如权利要求6所述的装置，其特征在于，所述生成模块包括：

获取单元，用于对所述文字信息进行分词以获取至少一个分词，并获取所述至少一个分词的语义内容和语义类型；

筛选单元，用于根据所述语义内容和语义类型对所述至少一个分词进行筛选以将筛选之后的分词加入至语义信息集合；以及

生成单元，用于根据所述语义信息集合生成标注信息。

8.如权利要求7所述的装置，其特征在于，所述筛选单元包括：

查询子单元，用于分别根据每个分词对应的语义内容和语义类型在数据库中进行查询；以及

第一添加子单元，用于在查询到分词对应的语义内容和语义类型时，将所述分词加入至所述语义信息集合。

9.如权利要求7所述的装置，其特征在于，数据库中包括多个关键词，所述筛选单元还包括：

判断子单元，用于分别判断每个分词对应的语义内容和所述数据库中关键词的相似度是否超过预设阈值；以及

第二添加子单元，用于在每个分词对应的语义内容和所述数据库中关键词的相似度超过所述预设阈值时，将所述分词加入至所述语义信息集合。

10.如权利要求7所述的装置，其特征在于，所述生成单元包括：

提取子单元，用于提取所述图像的图像特征信息；以及

生成子单元，用于根据所述图像特征信息和所述语义信息集合中的分词生成所述标注信息。

11.一种客户端，其特征在于，包括权利要求6-10任一项所述的图像语义标注的装置。