CN110119694A

CN110119694A - 一种图片处理方法、装置及计算机可读存储介质

Info

Publication number: CN110119694A
Application number: CN201910334566.0A
Authority: CN
Inventors: 姚从磊
Original assignee: Beijing Bailian Intelligent Technology Co Ltd
Current assignee: Beijing Bailian Intelligent Technology Co Ltd
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2019-08-13
Anticipated expiration: 2039-04-24
Also published as: CN110119694B

Abstract

本发明实施例公开了一种图片处理方法、装置及存储介质，包括：服务器识别待处理图片中的物体和文字，并获取识别出的文字与物体在待处理图片中的第一位置关系信息；将待处理图片和识别出的文字输入第一神经网络模型，得到识别出的文字的格式信息；基于识别出的文字和格式信息，并利用第二神经网络模型获取词组集合；其中，词组集合包括以下至少之一词组：机构名称、人物名称；根据识别出的物体以及第一位置关系信息获取词组集合中相互间具有关联关系的词组；将识别出的文字输入第三神经网络模型，得到相互间具有关联关系的词组的关联关系信息。因此实现了图片中具有关联关系的机构名称和人物名称的获取以及关联关系信息的获取。

Description

一种图片处理方法、装置及计算机可读存储介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种图片处理方法、装置及计算机可读存储介质。

背景技术

会议图片是指对某个召开的会议所拍摄的图片，这种图片往往能揭示一些机构、人物间的关系，然而，现有技术中缺乏这样一种能够从图片中获取机构、人物间关系的技术手段。

发明内容

为了解决上述技术问题，本发明实施例提供一种图片处理方法、装置及计算机可读存储介质，能够实现图片中具有关联关系的机构名称和人物名称的获取以及关联关系信息的获取，从而发掘更多价值。

为了达到本发明实施例目的，本发明实施例提供了一种图片处理方法，包括：

服务器识别待处理图片中的物体和文字，并获取识别出的文字与识别出的物体在所述待处理图片中的第一位置关系信息；

将所述待处理图片和所述识别出的文字输入第一神经网络模型，得到所述识别出的文字的格式信息；

基于所述识别出的文字和所述格式信息，并利用第二神经网络模型获取词组集合；其中，所述词组集合包括以下至少之一词组：机构名称、人物名称；

根据所述识别出的物体以及所述第一位置关系信息获取所述词组集合中相互间具有关联关系的词组；

将所述识别出的文字输入第三神经网络模型，得到关联关系信息；其中，所述关联关系信息为所述词组集合中相互间具有关联关系的词组的关联关系信息。

所述将待处理图片和识别出的文字输入第一神经网络模型之前，还包括：

获取包含各种文字的格式信息的图片集合；

将所述图片集合中每一张图片与该图片所包含的文字，以及该图片所包含的文字的格式信息作为训练数据集对预设神经网络模型进行训练，得到所述第一神经网络模型。

所述第二神经网络模型包括：双向长短期记忆神经网络模型+线性链条件随机场模型；

所述基于识别出的文字和格式信息，并利用第二神经网络模型获取词组集合，包括：

利用图片嵌入技术将每一个所述识别出的文字分别拓展为第一向量组；

根据所述识别出的文字的格式信息的种类分别获取用于表示每一个所述识别出的文字的格式信息的第二向量组；

依次拼接每一个所述识别出的文字对应的第一向量组与第二向量组，得到拼接后的向量组；

将所述拼接后的向量组输入双向长短期记忆神经网络模型，得到稀疏矩阵；

将获得的稀疏矩阵输入所述条件随机场模型，输出所述词组集合。

所述获取用于表示每一个识别出的文字的格式信息的第二向量组，包括：

获取所述识别出的文字的格式信息的种类数量；

创建维度与所述识别出的文字的格式信息的种类数量相同的预设向量组；

确定所述预设向量组中的元素所对应的格式信息的种类以及用于表示该种类格式信息的值；

根据每一个所述识别出的文字的格式信息、所述预设向量组中的元素所对应的格式信息的种类以及用于表示该种类格式信息的值分别填充所述预设向量组，得到所述第二向量组。

所述根据识别出的物体以及第一位置关系信息获取词组集合中相互间具有关联关系的词组，包括：

根据所述第一位置关系信息确定所述词组集合中相互间具有关联关系的词组与所述识别出的物体在待处理图片中的第二位置关系信息；

如果所述识别出的物体中包括横幅，且根据所述第二位置关系信息确定出所述词组集合中至少两个词组出现在同一横幅中，获取出现在同一横幅中的词组作为所述词组集合中相互间具有关联关系的词组；

如果所述识别出的物体中包括桌子，且根据所述第二位置关系信息确定出所述词组集合中至少两个词组出现在同一桌子中，获取出现在同一桌子中的词组作为所述词组集合中相互间具有关联关系的词组；

如果所述识别出的物体中包括名牌和桌子，且根据所述第二位置关系信息确定出所述词组集合中至少两个词组出现在不同名牌且同一张桌子中，获取出现在不同名牌且同一桌子中的词组作为所述词组集合中相互间具有关联关系的词组。

所述第一神经网络模型包括：卷积神经网络模型。

所述第三神经网络模型包括：卷积神经网络模型。

本发明实施例还提供了一种服务器，包括：

获取模块，用于识别待处理图片中的物体和文字，并获取识别出的文字与识别出的物体在所述待处理图片中的第一位置关系信息；

第一处理模块，用于将所述待处理图片和所述识别出的文字输入第一神经网络模型，得到所述识别出的文字的格式信息；

第二处理模块，用于基于所述识别出的文字和所述格式信息，并利用第二神经网络模型获取词组集合；其中，所述词组集合包括以下至少之一词组：机构名称、人物名称；

第三处理模块，用于根据所述识别出的物体以及所述第一位置关系信息获取所述词组集合中相互间具有关联关系的词组；

第四处理模块，用于将所述识别出的文字输入第三神经网络模型，得到关联关系信息；其中，所述关联关系信息为所述词组集合中相互间具有关联关系的词组的关联关系信息。

本发明实施例还提供了一种图片处理装置，包括：存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意一种图片处理方法。

本发明实施例还提供了一种计算机可读存储介质，所述存储介质上存储有计算机可执行命令，所述计算机可执行命令用于执行上述任意一种图片处理方法。

本发明实施例至少包括：服务器识别待处理图片中的物体和文字，并获取识别出的文字与识别出的物体在待处理图片中的第一位置关系信息；将待处理图片和识别出的文字输入第一神经网络模型，得到识别出的文字的格式信息；基于识别出的文字和格式信息，并利用第二神经网络模型获取词组集合；其中，词组集合包括以下至少之一词组：机构名称、人物名称；根据识别出的物体以及第一位置关系信息获取词组集合中相互间具有关联关系的词组；将识别出的文字输入第三神经网络模型，得到关联关系信息；其中，关联关系信息为词组集合中相互间具有关联关系的词组的关联关系信息。因此实现了图片中具有关联关系的机构名称和人物名称的获取以及关联关系信息的获取，从而发掘了更多价值。

本发明实施例的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明实施例而了解。本发明实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明实施例技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明实施例的技术方案，并不构成对本发明实施例技术方案的限制。

图1为本发明实施例提供的一种图片处理方法的流程示意图；

图2为本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明实施例的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

本发明实施例提供一种图片处理方法，如图1所示，该方法包括：

步骤101、服务器识别待处理图片中的物体和文字，并获取识别出的文字与识别出的物体在所述待处理图片中的第一位置关系信息。

在一种示例性实例中，识别待处理图片中的物体是基于卷积神经网络(Convolutional Neural Network，CNN)进行的，识别出的物体可以包括：横幅、桌子、名牌等。在具体实现中，首先会对每种物体准备数量足够(通常为10万以上量级)的训练样本图片，然后构建一个五层以上的CNN模型进行训练，具体模型的层数和激活函数的选择，业界有成熟方案，在此不再赘述。

在一种示例性实例中，识别待处理图片中的文字，以及获取识别出的文字与识别出的物体在待处理图片中的位置关系信息是利用CNN模型+长短期记忆神经网络(Long-Short Memory，LSTM)模型实现的，具体实现过程业界有成熟方案，在此不再赘述。

在一种示例性实例中，获取识别出的文字与识别出的物体在待处理图片中的第一位置关系信息，包括：

分别获取识别出的文字和识别出的物体在待处理图片中的位置信息；根据识别出的文字在待处理图片中的位置信息和识别出的物体在待处理图片中的位置信息获取识别出的文字与识别出的物体在待处理图片中的相对位置关系信息，即第一位置关系信息。

步骤102、将待处理图片和识别出的文字输入第一神经网络模型，得到识别出的文字的格式信息。

步骤103、基于识别出的文字和格式信息，并利用第二神经网络模型获取词组集合。

其中，词组集合包括以下至少之一词组：机构名称、人物名称。

在一种示例性实例中，第二神经网络模型包括：双向长短期记忆神经网络模型+线性链条件随机场模型。当第二神经网络模型为双向长短期记忆神经网络模型+线性链条件随机场模型时，对每个待处理文字和每个待处理文字对应的格式信息都进行如下操作：首先利用文本嵌入(word embedding)技术将文字拓展为一个高维向量组，并将格式信息表示为另一向量组，然后将这两组向量拼接起来。在对每个待处理文字和每个待处理文字对应的格式信息都进行完上述操作后，将所有拼接得到的向量组作为双向长短期记忆神经网络(Long Short-Term Memory，LSTM)模型的输入，输出稀疏矩阵，再经过线性链条件随机场(Linear-chain conditional random field，Linear-chain CRF)的处理，输出包括机构名称、人物名称至少之一词组的词组集合。

步骤104、根据识别出的物体以及第一位置关系信息获取词组集合中相互间具有关联关系的词组。

步骤105、将识别出的文字输入第三神经网络模型，得到关联关系信息。

其中，关联关系信息为词组集合中相互间具有关联关系的词组的关联关系信息。

在一种示例性实例中，第三神经网络模型包括：卷积神经网络模型。当第三神经网络模型是卷积神经网络模型时，建立用于获取关联关系信息的第三神经网络模型的过程可以包括：首先定义好关联关系信息的类型(例如战略合作、技术论坛、婚礼等)，并人工构建这些关系类型的训练数据集(每一种关系类型对应的文字)，训练CNN神经网络来根据文字内容判断关系的语义；在构建训练数据集时，可以利用互联网数据采集的方式来加速，例如对于“战略合作”关联关系信息的类型，可以将“战略合作”作为搜索词，从搜索引擎获取足够数量(通常大于1万篇)的网页，将这些网页的文本内容作为“战略合作”类型的训练集。

在一种示例性实例中，假设根据步骤104确定的词组为明达集团和百花公司且根据步骤105获得的关系信息为战略伙伴时，可以确定明达集团和百花公司为战略伙伴关系。

本发明实施例所提供的图片处理方法，服务器识别待处理图片中的物体和文字，并获取识别出的文字与识别出的物体在待处理图片中的第一位置关系信息；将待处理图片和识别出的文字输入第一神经网络模型，得到识别出的文字的格式信息；基于识别出的文字和格式信息，并利用第二神经网络模型获取词组集合；其中，词组集合包括以下至少之一词组：机构名称、人物名称；根据识别出的物体以及第一位置关系信息获取词组集合中相互间具有关联关系的词组；将识别出的文字输入第三神经网络模型，得到关联关系信息；其中，关联关系信息为词组集合中相互间具有关联关系的词组的关联关系信息。因此实现了图片中具有关联关系的机构名称和人物名称的获取以及关联关系信息的获取，从而发掘了更多价值。

在一种示例性实例中，将待处理图片和识别出的文字输入第一神经网络模型之前，还包括：

步骤106、获取包含各种文字的格式信息的图片集合。

步骤107、将图片集合中每一张图片与该图片所包含的文字，以及该图片所包含的文字的格式信息作为训练数据集对预设神经网络模型进行训练，得到第一神经网络模型。

在一种示例性实例中，第一神经网络模型包括：卷积神经网络模型。当第一神经网络模型是卷积神经网络模型时，建立用于获取文字格式信息的第一神经网络模型的过程可以包括：将每一种格式(例如粗体、斜体、下划线等格式)作为一个分类，从互联网采集包含各种格式的大量网页，并根据网页中所包含文字的格式信息将这些网页按照预设标签进行标注(例如<b>对应粗体、<i>对应斜体等)，然后利用前端插件html2canvas将这些网页转成图片，于是这些图片中就包含了事先定义好的各种类别格式的文字内容(例如粗体、斜体、下划线等)，将这些图片和其中包含的格式文本信息组成训练数据集训练CNN模型，具体地，图片用来作为模型的输入，而图片中包含的不同格式信息(例如粗体、斜体、下划线等)作为模型的输出

在一种示例性实例中，第二神经网络模型包括：双向长短期记忆神经网络模型+线性链条件随机场模型。基于识别出的文字和格式信息，并利用第二神经网络模型获取词组集合，包括：

步骤103a、利用图片嵌入技术将每一个识别出的文字分别拓展为第一向量组。

步骤103b、根据识别出的文字的格式信息的种类分别获取用于表示每一个识别出的文字的格式信息的第二向量组。

步骤103c、依次拼接每一个识别出的文字对应的第一向量组与第二向量组，得到拼接后的向量组。

在一种示例性实例中，依次拼接每一个识别出的文字对应的第一向量组与第二向量组，得到拼接后的向量组指的是：拼接一个识别出的文字对应的第一向量组与第二向量组，得到拼接后的向量组；拼接下一个识别出的文字对应的第一向量组与第二向量组，得到拼接后的向量组，直到处理完所有识别出的文字。

步骤103d、将拼接后的向量组输入双向长短期记忆神经网络模型，得到稀疏矩阵。

步骤103e、将获得的稀疏矩阵输入条件随机场模型，输出词组集合。

在一种示例性实例中，根据识别出的文字的格式信息种类分别获取用于表示每一个识别出的文字的格式信息的第二向量组，包括：

步骤103b1、获取识别出的文字的格式信息的种类数量。

在一种示例性实例中，假设识别出的文字中有粗体、斜体、下划线格式信息，那么识别出的文字的格式信息的种类数量为3种。

步骤103b2、创建维度与识别出的文字的格式信息的种类数量相同的预设向量组。

步骤103b3、确定预设向量组中的元素所对应的格式信息的种类以及用于表示该种类格式信息的值。

步骤103b4、根据每一个识别出的文字的格式信息、预设向量组中的元素所对应的格式信息的种类以及用于表示该种类格式信息的值分别填充预设向量组，得到第二向量组。

在一种示例性实例中，假设识别出的文字中有粗体、斜体、下划线格式信息，则识别出的文字的格式信息的种类数量为3种，预设向量组的维度为3，预设向量组为(a1，a2，a3)，元素a1对应粗体这种格式信息种类，当a1需要表示这种格式信息时，a1的值为0，当a1不需要表示这种格式信息时，a1的值为1；元素a2对应斜体这种格式信息种类，当a2需要表示这种格式信息时，a2的值为0，当a2不需要表示这种格式信息时，a2的值为1；元素a3对应下划线这种格式信息种类，当a3需要表示这种格式信息时，a3的值为0，当a3不需要表示这种格式信息时，a3的值为1。因此当一个识别出的文字的格式信息为粗体时，该文字所对应的格式信息的第二向量组为(0，1，1)；当一个识别出的文字的格式信息为斜体时，该文字所对应的格式信息的第二向量组为(1，0，1)；当一个识别出的文字的格式信息为下划线时，该待处理文字所对应的格式信息的第二向量组为(1，1，0)。

在一种示例性实例中，根据识别出的物体以及第一位置关系信息获取词组集合中相互间具有关联关系的词组，包括：

步骤104a、根据第一位置关系信息确定词组集合中相互间具有关联关系的词组与识别出的物体在待处理图片中的第二位置关系信息。

在一种示例性实例中，词组集合中相互间具有关联关系的词组是由识别出的文字组成的，因此根据第一位置关系信息必然能够确定词组集合中相互间具有关联关系的词组与识别出的物体在待处理图片中的位置关系信息，即第二位置关系信息。

步骤104b、如果识别出的物体中包括横幅，且根据第二位置关系信息确定出词组集合中至少两个词组出现在同一横幅中，获取出现在同一横幅中的词组作为词组集合中相互间具有关联关系的词组。

步骤104c、如果识别出的物体中包括桌子，且根据第二位置关系信息确定出词组集合中至少两个词组出现在同一桌子中，获取出现在同一桌子中的词组作为词组集合中相互间具有关联关系的词组。

在一种示例性实例中，可以利用物体的相对关系是否足够小判断是否出现在桌子上，例如物体和桌子的垂直距离小于整张图片的1/1000。

步骤104d、如果识别出的物体中包括名牌和桌子，且根据第二位置关系信息确定出词组集合中至少两个词组出现在不同名牌且同一张桌子中，获取出现在不同名牌且同一桌子中的词组作为词组集合中相互间具有关联关系的词组。

在一种示例性实例中，第一神经网络模型包括：卷积神经网络模型。

在一种示例性实例中，第三神经网络模型包括：卷积神经网络模型。

本发明实施例提供一种服务器，如图2所示，该服务器2包括：

获取模块21，用于识别待处理图片中的物体和文字，并获取识别出的文字与识别出的物体在待处理图片中的第一位置关系信息。

第一处理模块22，用于将待处理图片和识别出的文字输入第一神经网络模型，得到识别出的文字的格式信息。

第二处理模块23，用于基于识别出的文字和格式信息，并利用第二神经网络模型获取词组集合；其中，词组集合包括以下至少之一词组：机构名称、人物名称。

第三处理模块24，用于根据识别出的物体以及第一位置关系信息获取词组集合中相互间具有关联关系的词组。

第四处理模块25，用于将识别出的文字输入第三神经网络模型，得到关联关系信息；其中，关联关系信息为词组集合中相互间具有关联关系的词组的关联关系信息。

在一种示例性实例中，获取模块21还用于：

获取包含各种文字的格式信息的图片集合。

将图片集合中每一张图片与该图片所包含的文字，以及该图片所包含的文字的格式信息作为训练数据集对预设神经网络模型进行训练，得到第一神经网络模型。

在一种示例性实例中，第二神经网络模型包括：双向长短期记忆神经网络模型+线性链条件随机场模型。第二处理模块23具体用于：

利用图片嵌入技术将每一个识别出的文字分别拓展为第一向量组。

根据识别出的文字的格式信息的种类分别获取用于表示每一个识别出的文字的格式信息的第二向量组。

依次拼接每一个识别出的文字对应的第一向量组与第二向量组，得到拼接后的向量组。

将拼接后的向量组输入双向长短期记忆神经网络模型，得到稀疏矩阵。

将获得的稀疏矩阵输入条件随机场模型，输出词组集合。

在一种示例性实例中，第二处理模块23具体还用于：

获取识别出的文字的格式信息的种类数量。

创建维度与识别出的文字的格式信息的种类数量相同的预设向量组。

确定预设向量组中的元素所对应的格式信息的种类以及用于表示该种类格式信息的值。

根据每一个识别出的文字的格式信息、预设向量组中的元素所对应的格式信息的种类以及用于表示该种类格式信息的值分别填充预设向量组，得到第二向量组。

在一种示例性实例中，第三处理模块24具体还用于：

根据第一位置关系信息确定词组集合中相互间具有关联关系的词组与识别出的物体在待处理图片中的第二位置关系信息。

如果识别出的物体中包括横幅，且根据第二位置关系信息确定出词组集合中至少两个词组出现在同一横幅中，获取出现在同一横幅中的词组作为词组集合中相互间具有关联关系的词组。

如果识别出的物体中包括桌子，且根据第二位置关系信息确定出词组集合中至少两个词组出现在同一桌子中，获取出现在同一桌子中的词组作为词组集合中相互间具有关联关系的词组。

如果识别出的物体中包括名牌和桌子，且根据第二位置关系信息确定出词组集合中至少两个词组出现在不同名牌且同一张桌子中，获取出现在不同名牌且同一桌子中的词组作为词组集合中相互间具有关联关系的词组。

本发明实施例所提供的服务器，识别待处理图片中的物体和文字，并获取识别出的文字与识别出的物体在待处理图片中的第一位置关系信息；将待处理图片和识别出的文字输入第一神经网络模型，得到识别出的文字的格式信息；基于识别出的文字和格式信息，并利用第二神经网络模型获取词组集合；其中，词组集合包括以下至少之一词组：机构名称、人物名称；根据识别出的物体以及第一位置关系信息获取词组集合中相互间具有关联关系的词组；将识别出的文字输入第三神经网络模型，得到关联关系信息；其中，关联关系信息为词组集合中相互间具有关联关系的词组的关联关系信息。因此实现了图片中具有关联关系的机构名称和人物名称的获取以及关联关系信息的获取，从而发掘了更多价值。

在实际应用中，所述获取模块21、第一处理模块22、第二处理模块22、第三处理模块23和第四处理模块22位于服务器中的中央处理器(Central Processing Unit，CPU)、微处理器(Micro Processor Unit，MPU)、数字信号处理器(Digital Signal Processor，DSP)或现场可编程门阵列(Field Programmable Gate Array，FPGA)等实现。

本发明实施例还提供一种图片处理装置，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，处理器执行计算机程序时实现上述实施例中任意一种图片处理方法。

本发明实施例一种计算机可读存储介质，存储介质上存储有计算机可执行命令，计算机可执行命令用于执行如上述实施例中任意一种图片处理方法。

虽然本发明实施例所揭露的实施方式如上，但所述的内容仅为便于理解本发明实施例而采用的实施方式，并非用以限定本发明实施例。任何本发明实施例所属领域内的技术人员，在不脱离本发明实施例所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明实施例的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种图片处理方法，其特征在于，包括：

2.根据权利要求1所述的图片处理方法，其特征在于，所述将待处理图片和识别出的文字输入第一神经网络模型之前，还包括：

获取包含各种文字的格式信息的图片集合；

3.根据权利要求1所述的图片处理方法，其特征在于，所述第二神经网络模型包括：双向长短期记忆神经网络模型+线性链条件随机场模型；

4.根据权利要求3所述的图片处理方法，其特征在于，所述分别获取用于表示每一个识别出的文字的格式信息的第二向量组，包括：

获取所述识别出的文字的格式信息的种类数量；

5.根据权利要求1所述的图片处理方法，其特征在于，所述根据识别出的物体以及第一位置关系信息获取词组集合中相互间具有关联关系的词组，包括：

6.根据权利要求1或2所述的图片处理方法，其特征在于，所述第一神经网络模型包括：卷积神经网络模型。

7.根据权利要求1所述的图片处理方法，其特征在于，所述第三神经网络模型包括：卷积神经网络模型。

8.一种服务器，其特征在于，包括：

9.一种图片处理装置，其特征在于，包括：存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1～7任一项所述的图片处理方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机可执行命令，所述计算机可执行命令用于执行如权利要求1～7任一项所述的图片处理方法。