CN110727820B

CN110727820B - 一种为图片获得标签的方法和系统

Info

Publication number: CN110727820B
Application number: CN201911004899.3A
Authority: CN
Inventors: 于海燕; 江敏
Original assignee: Hangzhou Dtwave Technology Co ltd
Current assignee: Hangzhou Dtwave Technology Co ltd
Priority date: 2019-10-22
Filing date: 2019-10-22
Publication date: 2022-11-04
Anticipated expiration: 2039-10-22
Also published as: CN110727820A

Abstract

本发明的实施例能够精确地定位图片的注释文本，并从中提取出关键词作为标签。本发明的一些实施例还能够在不存在注释文本的情况下，对图片进行图像识别以提取出标签。本发明的一些实施例能够对已经提取出的标签进行再加工。本发明的实施例能够更有效或更准确地获得图片的标签，并用所获得的标签对图片进行自动标注，从而能节省人力。

Description

一种为图片获得标签的方法和系统

技术领域

本发明涉及图文处理技术，具体而言，涉及为图片获得标签的方法和系统。

背景技术

在进行信息检索时，经常需要快速、精准地查找图片。在本领域中，可以借助图片的标注信息(例如标签)来完成查找。

当前，本领域中主要通过人工来对图片进行标注。然而，由于人工标注图片既费时又费力，而且成本也高，因此，能够自动识别图片的注释文本(例如，图片说明)并从中提取出关键词作为标签，以对图片进行标注的技术方案得到了广泛的关注。

发明内容

本发明的实施例包括为图文排版文件中的图片获得标签的方法，包括：解析所述图文排版文件，以获取图片信息和文本信息；基于所述图片信息和所述文本信息，判断所述文本信息是否包含与所述图片对应的注释文本；以及如果判断出所述文本信息包含与所述图片对应的注释文本，则从所述对应的注释文本提取标签，否则，从所述图片提取标签。

本发明的实施例能够精确地定位图片的注释文本，并从中提取出关键词作为标签。本发明的一些实施例还能够在不存在注释文本的情况下，对图片进行图像识别以提取出标签。本发明的一些实施例能够对已经提取出的标签进行再加工。

本发明的实施例能够更有效或更准确地获得图片的标签，并用所获得的标签对图片进行自动标注，从而能节省人力。

附图说明

图1是根据本发明的实施例的获得图片的标签的方法的流程图。

图2是根据本发明的实施例的图文排版双页版面及其坐标系的示意图。

图3是根据本发明的实施例的以标号确定图片的注释文本的流程图。

图4是根据本发明的实施例的标号和对应的注释文本的示意图。

图5是根据本发明的实施例的确定候选注释文本的流程图。

图6是根据本发明的实施例的从候选注释文本筛选注释文本的流程图。

图7是根据本发明的实施例的对图片进行图像识别以提取标签的流程图。

图8是根据本发明的实施例的标签再加工的流程图。

具体实施方式

现在将参照若干示例性实施例来论述本发明的内容。应当理解，论述了这些实施例仅是为了使得本领域普通技术人员能够更好地理解且因此实现本发明的内容，而不是暗示对本发明的范围的任何限制。

如本文中所使用的，术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实施例”和“一种实施例”要被解读为“至少一个实施例”。术语“另一个实施例”要被解读为“至少一个其他实施例”。

本发明的实施例提供了一种解析图文排版文件并输出图片标签的方法。图文排版文件是本领域中常见的文件类型，例如图文排版软件InDesign生成的idml文件。图1示出了根据本发明的实施例的获得图片的标签的方法。在本发明的实施例中，首先对图文排版文件进行解析，以获取版面中的图片信息和文本信息，然后据此定位与图片对应的注释文本。如果定位到与图片对应的注释文本，则通过自然语言处理技术处理该注释文本并从中提取出标签；如果没有定位到注释文本，则可以利用图像识别技术从图片中提取出标签。在本发明的实施例中，还可以对提取出的标签进行再加工(比如去重、业务规则过滤、降低粒度等)，最后输出与图片对应的经再加工的标签。

下面以图文排版软件InDesign生成的idml文件为例详细说明该方法的各个步骤。在本发明的其他实施例中，也可以将本发明的方法应用于其他类型的图文排版文件。

一、解析图文排版文件

在本发明的实施例中，可以解析出图文排版文件中关于图片和文本的信息。对已知类型的图文排版文件存在已知的解析方法，在此不再赘述。例如，所解析出的图片信息和文本信息包括图片和文本、图片和文本的位置信息(比如边界范围)、图片和文本的转换向量、图片和文本所在的页码、文本集合的数据样式等。在本发明的实施例中，文本的数据样式通常包括“内文”、“大标题”、“小标题”、“图注”、“正文”等。

表1

表1示出了根据本发明的实施例的解析图文排版文件后获取的文本的集合T和其中文本的数据样式。文本集合T包含了该图文排版文件中的所有文本的内容。表1中的“content”表示文本内容，“applied_paragraph_style”表示该文本的数据样式。在本发明的实施例中，文本集合T包含与图片对应的注释文本。

在本发明的实施例中，可以从文本集合T中筛选出具有特定数据样式的文本作为新的文本集合T，也可以从文本集合T中去除具有特定数据样式的文本。例如，在本发明的实施例中，可以根据解析到的文本的数据样式，去除其中具有特定数据样式(例如，“大标题”、“内文”、“正文”等)的文本。上述筛选和去除操作可以缩小文本集合T，以便在后续步骤中更快速地确定与图片对应的注释文本。在本发明的实施例中，从文本集合T中筛选和去除具有特定数据样式的文本的操作可以发生在本发明的任何阶段。

二、定位与图片对应的注释文本

在本发明的实施例中，可以基于图片和文本的位置信息来确定彼此之间的位置关系。例如，在本发明的实施例中，图片和文本在版面中的位置由其边界范围限定，因而图片和文本在版面中的位置坐标指的是其边界的位置坐标。该边界范围通常体现为图片和文本的边框。在本发明的实施例中，边框通常是略超出的图片和文本的范围的矩形框。例如，在InDesign图文排版文件中，图片和文本都包括隐含的边框，在执行某些操作后，该边框可以以实线形式显示出来。在其他图文排版软件中，图片和文本的边界范围也可以由图片和文本周围的虚拟边框限定或通过其他本领域已知的手段限定。

本发明的实施例可以通过如下方法定位与图片对应的注释文本：

(1)确定图片和文本在版面中的位置坐标

在本发明的实施例中，可以通过各种方式获取图片和文本在版面中的位置坐标。例如，可以基于解析图文排版文件后得到的图片和文本的各种坐标参数，通过转换向量实现旋转、缩放、位移、错切等操作，进而获取图片和文本的位置坐标。在本发明的实施例中，版面可以例如是如图2所示的图文排版双页版面。

在本发明的实施例中，图片和文本之间的距离指的是图片和文本的中心点坐标之间的距离。在本发明的实施例中，可以基于已经确定的图片和文本的位置坐标，计算图片和文本的中心点坐标，然后再计算中心点坐标之间的距离。在本发明的实施例中，如果图片或文本的位置坐标从左上角顶点开始按照逆时针的方向依次为{(x1,y1)；(x2,y2)；(x3,y3)；(x4,y4)}，则其中心点坐标(cx,cy)的计算公式为：cx＝(x1+x3)/2；cy＝(y1+y3)/2。

(2)根据图片和文本在版面中的位置坐标来判断文本是否在图片的边界范围内

在本发明的实施例中，可以根据图片和文本的位置坐标确定文本是否处于图片的边界范围内，并且针对不同的情况执行不同的操作。

在本发明的实施例中，判断文本是否处于图片的边界范围内的方法可以以不同的手段实现。例如，上述手段可以包括如下步骤：

1)基于图片和文本的位置坐标从左上角顶点开始依次比较图片顶点的横纵坐标值与文本的横纵坐标值的大小。

2)当在图2所示的图文排版双页版面的坐标系中同时满足以下关系时，可以认为文本处于图片的边界范围内，否则认为文本不处于图片的边界范围内：图片的边框左上角顶点(xp1,yp1)与文本的边框左上角顶点(xt1,yt1)满足xp1<＝xt1且yp1<＝yt1；左下角顶点(xp2,yp2)与左下角顶点(xt2,yt2)满足xp2<＝xt2且yp2>＝yt2；右下角顶点(xp3,yp3)与右下角顶点(xt3,yt3)满足xp3>＝xt3且yp3>＝yt3；右上角顶点(xp4,yp4)与右上角顶点(xt4,yt4)满足xp4>＝xt4且yp4<＝yt4。

在本发明的其他实施例中，可以使用其他本领域已知的方法来判文本是否在图片的边界范围内。

·文本在图片的边界范围内

在本发明的实施例中，如果文本在图片的边界范围内，则该文本为候选注释文本。然后，判断该候选注释文本是否是指向注释文本的标号(例如：“1”、“2”等)。在本发明的实施例中，可以利用正则表达式“^[0-9]{1,3}$”来判断该候选注释文本是否为标号。例如，当候选注释文本是“4”时，“4”满足该正则表达式，则该候选注释文本被判断为标号。当候选注释文本是“双色”时，不满足该正则表达式，则该候选注释文本被判断为不是标号。

在本发明的实施例中，如果候选注释文本是标号，则根据标号寻找对应的注释文本。如果候选注释文本不是标号，则将其直接作为注释文本。

针对候选注释文本是标号的情况，图3示出了根据本发明的实施例的以标号确定图片的注释文本的流程图。

参见图3，该流程可以包括解析文本集合T并构建出具有数据结构“{标号：文本}”的多个键值对。在本发明的实施例中，在候选注释文本为标号的情况下，可以利用该标号，从多个键值对中匹配与该标号对应的文本，然后将该文本作为与图片对应的注释文本。具体流程如下：

1、利用正则表达式对文本集合T中的单个文本进行切分，切分出带有标号的文本，一个带标号的文本作为一条数据，存在几个标号就切分出几条数据。

经过数据分析，发现带标号的文本例如满足以下几种情况：

(a)以“[0-9]\.”起始的文本(例如，“1.Stella Jean 2.Chanel”)。该情况对应的正则表达式为“[\s\S](？＝[0-9]\.)”(其含义是数字和一个点“.”前的字符)。

(b)以“P.”和数字起始的文本(例如，“P.1Stella Jean P.2Chanel”)。该情况对应的正则表达式为“[\s\S](？＝P\.[0-9])”(含义是“P.”和数字前的字符)。

(c)以“【图[0-9]】”起始的文本(例如，“【图1】StellaJean【图2】Chanel”)。该情况对应的正则表达式为“[\s\S](？＝【图[0-9]】)”(含义是在满足“【图”、数字、“】”合起来的情况前的字符)。

(d)以“图[0-9].”起始的文本(例如，“图1.Stella Jean图2.Chanel”)。该情况对应的正则表达式为“[\s\S](？＝图[0-9]\.)”(含义是在满足“图”、数字、“.”合起来的情况前的字符)。

(e)以“[0-9].”起始的文本(例如，“1.Stella Jean 2.Chanel”)。该情况对应的正则表达式为“[\s\S](？＝[0-9]\.)”(含义是在满足数字、空格、“.”合起来的情况前的字符)。

综合以上几种情况，可以得出正则表达式regexp为“[\s\S](？＝[0-9]\.)|[\s\S](？＝P\.[0-9])|[\s\S](？＝【图[0-9]】)|[\s\S](？＝图[0-9]\.)|[\s\S](？＝[0-9]\.)”。利用该regexp对文本集合T进行切分，可以得到多组数据S。在本发明的其他实施方式中，可以根据其他实际需求构建出合适的正则表达式regexp。

2、对S中的数据进行遍历，构建出标号和文本之间的键值对。

(a)舍弃长度小于一定阈值的数据。判断S中一条数据Si(其包含于S中)的长度是否大于6(此数值为经验值，可以根据实际情况进行调整)。如果数据长度小于等于6，则转到步骤(c)；如果长度大于6，则转到步骤(b)。

(b)分别提取出标号和与其对应的文本。利用正则表达式regexp1“(？<＝[^0-9])[0-9]{1,3}(？＝[^0-9])”(含义是一个数字串位于非数字字符后非数字字符前)对Si的前6个字符取出满足条件的所有值index(数字)。如果index的长度等于0，利用正则表达式regexp2“[0-9]{1,3}(？＝[.])”(含义是空格或点前的数字)对Si的前6个字符取出满足条件的所有值index(数字)。如果index的长度大于0，则将index的第一个元素作为标号index0(键)，然后利用正则表达式regexp3“[0-9]+\.|P\.[0-9]+|【图[0-9]+】|图[0-9]+\.|[0-9]+\.”(含义是多个数字和一个点；一个“P”，一个点和多个数字；一个“【图”、多个数字和一个“】”；一个“图”、多个数字和一个“.”；多个数字、一个空格和一个“.”)将Si中满足条件的内容替换为空，剩余的内容content作为标号index0对应的文本，构建键值对，一个index0对应一条文本；如果index的长度等于0，则转到步骤(c)。

(c)判断S中的数据是否遍历完毕，如果遍历完毕，则停止遍历，输出结果；否则，继续进行遍历。

图4示出了根据本发明的实施例的标号和对应的注释文本的示意图。在图4的示意图中应用上述方法的流程如下：

1、首先使用正则表达式regexp对注释文本中的内容(1.Stella Jean2.Chanel3.Gentle Monster 4.Ippolita 5.Ellery 6.Dolce&Gabbana7.Chanel 8.Balmain9.Christian Louboutin)进行切分。得到多组数据S：“1.Stella Jean”、“2.Chanel”、“3.Gentle Monster”、“4.Ippolita”、“5.Ellery”、“6.Dolce&Gabbana”、“7.Chanel”、“8.Balmain”和“9.Christian Louboutin”。

2、对S中的数据进行遍历，并构建标号和文本之间的键值对。以数据“1.StellaJean”为例进行说明。

(a)首先，该数据的长度满足大于6的要求。

(b)分别提取出标号和对应的文本。对上述数据进行分析，将满足regexp1中的内容提取出来，则“1”被提取出来，记作index0。然后利用regexp3对数据中的内容进行替换，则“1.”被替换为空，得到“Stella Jean”记作content。则以index0和content构建键值对进而得到“{1:Stella Jean}”。

按照同样的方法对S中的所有数据进行遍历，即可得到“{1:Stella Jean,2:Chanel,3:Gentle Monster,4:Ippolita,5:Ellery,6:Dolce&Gabbana,7:Chanel,8:Balmain,9:Christian Louboutin}”。因此，在已经将候选注释文本确定为标号，例如确定其为标号“4”时，可以确定其对应的注释文本为“Ippolita”。

·文本不在图片的边界范围内

在本发明的实施例中，当文本不在图片的边界范围内时，可以根据图片和文本的中心点坐标来计算它们之间的欧氏距离，并且将与图片欧氏距离最小的文本作为候选注释文本。其中，欧氏距离的计算公式为：

其中，A、B分别表示图片和文本的中心点，其坐标为(ax,ay)和(bx,by)，dist(A,B)表示A、B两点之间的距离。

图5示出了根据本发明的实施例的确定候选注释文本的流程图。参见图5，其流程包括：计算图片的中心点坐标；判断是否已遍历文本集合T；如果是，则输出与最小距离min对应的文本作为与图片对应的候选注释文本，如果否，则遍历下一条文本并计算其与图片的中心点坐标的距离x。如果该距离小于min并且min的数值与图片的边界范围所覆盖的面积的数值的比例在一定阈值(优选地，比例的阈值为0～0.03)内时，则将该距离的值赋予min，并将新的min设为最小距离并检查下一条文本，否则不改变原始的最小距离min并检查下一条文本。在本发明的实施例中，初始最小距离min为使用者根据实际情况设置的阈值，其初始对应的文本为空。如果不存在比初始min更小的距离，则表示不存在候选注释文本。

然后对该候选注释文本进行分析，判断该候选注释文本是指向注释文本的标号还是注释文本自身。如果其是标号的话，则通过上面描述的方法以标号确定图片的注释文本。

当存在多个与图片具有最小距离min的文本时，本发明还提供了一种筛选候选注释文本的方法。参见图6，可以首先提取位于图片下方的且长度在一定阈值内的候选注释文本作为图片的注释文本。如果图片下方的候选注释文本的长度大于阈值，则将与图片位于同一行的候选注释文本作为图片的注释文本。如果图片的同一行没有候选注释文本，则将图片上方的候选注释文本作为图片的注释文本。如果图片上方的没有候选注释文本，则将图片下方的候选注释文本作为图片的注释文本而不考虑长度阈值。首先提取图片下方的候选注释文本是因为其为图片注释的概率最大。然而，如果图片下方的候选注释文本长度超出阈值，则其可能是另起一段的正文。

三、解析注释文本并提取标签

在本发明的实施例中，在确定图片对应的注释文本后，对注释文本进行解析以提取图片的标签，包括以下步骤：

(1)构建词库

词库的收词量与收词质量将直接影响分词效果及标签的提取。在本发明的实施例中，词库根据例如yoka等专业网站，从物名、品牌名、人名、地名等多个维度采集数据以构建词库。在本发明的其他实施例中，还可以根据实际需求使用本领域中已知的技术构建词库。

(2)使用分词工具进行分词

在本发明的实施例中，可以利用已知的分词工具HanLp对注释文本进行分词。在本发明的其他实施例中，还可以使用其他合适的分词工具。

(3)给词语赋予词性，并提取具有特定词性的词语

在本发明的实施例中，将构建的词库添加到分词工具中。针对不同的词语，词库会赋予其不同的词性。在本发明的实施例中，品牌名对应的词性为“n-brand”；物品名对应的词性为“n-object”、“nb”、“nh”等；明星名对应的词性为“n-star”；导演名对应的词性为“n-director”；场景名对应的词性为“n-scene”；特征属性词对应的词性为“n-charact”；与时装周关联的词对应的词性为“n-fashion”。然后，提取这些具有特定词性的词语，并将它们作为图片的标签。

例如，在本发明的实施例中，图片的注释文本的内容为“佩戴黄色太阳镜Chloe”，经过分词操作后得到的结果为“佩戴、黄色、太阳镜、Chloe”，在赋予词性操作后得到的结果为“佩戴/v、黄色/n-charact、太阳镜/n-object、Chloe/n-brand”，最后给该图片提取的标签为“黄色、太阳镜、Chloe”。

四、对图片进行图像识别以提取标签

图7示出了根据本发明的实施例的对图片进行图像识别以提取标签的流程图。

当不存在与图片对应的注释文本时，则利用图像识别技术对图片进行识别，然后以图像识别的结果作为其标签。例如，图像识别主要分为人、物体、场景三大类的识别。图片会分别经过人、物体、场景三个识别模块进行识别。在本发明的实施例中，物体可以分为四百多类，比如船、椅子、乐器、衣服等；场景可以分为三百多类，比如机场、游乐园、美术馆、酒吧等。在经过识别人的模块后，如果识别出来图片中有人，则给图片添加“人”的标签，否则该图片不添加“人”的标签。

五、标签再加工

在本发明的实施例中，在获取标签后，可以对标签进行再加工。图8示出了根据本发明的实施例的标签再加工的流程图。在本发明的实施例中，标签再加工可以包括下列三种：

(a)根据实际的业务场景，利用特定的业务规则过滤标签。例如，可以根据服装业务场景过滤服装类标签，比如只提取衬衫、领带等标签；或者可以根据风景业务场景过滤风景类标签，比如只提取草原、森林等标签。

(b)由于获取的标签可能会存在一些重复的内容，因而可以对标签进行去重操作。例如，如果出现了多个内容相同的标签，则只保留其中一个。

(c)为了进行标签合并，可以降低标签粒度。例如，可以将从图片识别出的一些标签在类别上进行合并。在本发明的实施例中，例如，可以将识别出的更下位类别(即，更细粒度)的标签“僧帽猴”、“卷尾猴”、“狨”等统一为“猴”这个标签。

本发明各实施例的方法和系统可以实现为纯粹的软件模块(例如用Python语言来编写的软件程序)，也可以根据需要实现为纯粹的硬件模块(例如专用ASIC芯片或FPGA芯片)，还可以实现为结合了软件和硬件的模块(例如存储有固定代码的固件系统)。

本发明的另一个方面是一种计算机可读介质，其上存储有计算机可读指令，所述指令被执行时可实施本发明各实施例的方法。

本领域普通技术人员可以意识到，以上所述仅为本发明的示例性实施例，并不用于限制本发明。本发明还可以包含各种修改和变化。任何在本发明的精神和范围内作的修改和变化均应包含在本发明的保护范围内。

Claims

1.一种为图文排版文件中的图片获得标签的方法，包括：

解析所述图文排版文件，以获取图片信息和文本信息；

利用正则表达式对所述文本信息中的单个文本进行切分，以切分出包含带有标号的文本的多组数据，并对所述多组数据进行遍历，构建多个键值对，其中每个键值对包括标号与所述标号指向的文本；

基于所述图片信息和所述文本信息，判断所述文本信息是否包含与所述图片对应的注释文本；以及

如果判断出所述文本信息包含与所述图片对应的注释文本，则从所述对应的注释文本提取标签，否则，从所述图片提取标签，

其中所述判断步骤包括：如果一文本位于所述图片的边界范围内，则根据该文本确定与所述图片对应的注释文本，并且，如果无文本位于所述图片的边界范围内，则将与所述图片具有最小欧氏距离的文本判断为包含与所述图片对应的注释文本，

其中如果一文本位于所述图片的边界范围内，则根据该文本确定与所述图片对应的注释文本的操作包括：

使用正则表达式来判断该文本是否是标号；

如果所述文本是标号，利用该标号从所述多个键值对中匹配与该标号对应的文本，并将所匹配的文本作为与所述图片对应的注释文本。

2.根据权利要求1所述的方法，所述从所述对应的注释文本提取标签的步骤包括利用自然语言处理技术从所述注释文本提取所述标签。

3.根据权利要求1所述的方法，所述从所述图片提取标签的步骤包括利用图像识别技术从所述图片提取所述标签。

4.根据权利要求1所述的方法，还包括：

从所获取的所述文本信息中筛选或去除具有特定数据样式的文本。

5.根据权利要求1所述的方法，其中当所述注释文本是标号时，将所述标号指向的文本作为所述注释文本。

6.根据权利要求1所述的方法，还包括对所述标签进行再加工。

7.根据权利要求6所述的方法，其中所述再加工步骤包括对所述标签进行业务规则过滤、去重和降低粒度中的一种或多种。

8.根据权利要求1所述的方法，还包括去除不满足特定长度要求的所述注释文本。

9.一种为图文排版文件中的获得标签的系统，包括：

用于解析所述图文排版文件，以获取图片信息和文本信息的装置；

用于利用正则表达式对所述文本信息中的单个文本进行切分，以切分出包含带有标号的文本的多组数据，并对所述多组数据进行遍历，构建多个键值对的装置，其中每个键值对包括标号与所述标号指向的文本

用于基于所述图片信息和所述文本信息，判断所述文本信息是否包含与所述图片对应的注释文本的装置；以及

用于如果判断出所述文本信息包含与所述图片对应的注释文本，则从所述对应的注释文本提取标签，否则，从所述图片提取标签的装置，

其中所述用于如果判断出所述文本信息包含与所述图片对应的注释文本，则从所述对应的注释文本提取标签，否则，从所述图片提取标签的装置在当一文本位于所述图片的边界范围内时，则根据该文本确定与所述图片对应的注释文本，并且在当无文本位于所述图片的边界范围内时，则将与所述图片具有最小欧氏距离的文本判断为包含与所述图片对应的注释文本，

其中在当一文本位于所述图片的边界范围内时，则根据该文本确定与所述图片对应的注释文本的操作包括：

使用正则表达式来判断该文本是否是标号；

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现根据权利要求1-8中任一项所述的方法。