CN106446782A - 图像识别方法及装置 - Google Patents

图像识别方法及装置 Download PDF

Info

Publication number
CN106446782A
CN106446782A CN201610757663.7A CN201610757663A CN106446782A CN 106446782 A CN106446782 A CN 106446782A CN 201610757663 A CN201610757663 A CN 201610757663A CN 106446782 A CN106446782 A CN 106446782A
Authority
CN
China
Prior art keywords
image
training
default
descriptive statement
training image
Prior art date
Application number
CN201610757663.7A
Other languages
English (en)
Inventor
杨松
陈志军
万韶华
Original Assignee
北京小米移动软件有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京小米移动软件有限公司 filed Critical 北京小米移动软件有限公司
Priority to CN201610757663.7A priority Critical patent/CN106446782A/zh
Publication of CN106446782A publication Critical patent/CN106446782A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/00624Recognising scenes, i.e. recognition of a whole field of perception; recognising scene-specific objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/36Image preprocessing, i.e. processing the image information without deciding about the identity of the image
    • G06K9/46Extraction of features or characteristics of the image

Abstract

本公开是关于一种图像识别方法及装置,属于图像处理领域。该方法包括:获取目标图像,该目标图像为待识别的图像;通过预设卷积神经网络模型对该目标图像进行特征提取,得到该目标图像的属性向量,该属性向量包括该目标图像中存在多个预设词语属性的概率;通过预设循环神经网络模型对该属性向量进行语义分析处理,得到该目标图像的描述语句,该描述语句用于对该目标图像的内容进行描述。也即是,本公开可以将图像识别与自然语言处理相结合,实现将目标图像转换为文字形式的描述语句,从而能够更加详细和形象地描述出目标图像的具体内容,提高了图像识别效果。

Description

图像识别方法及装置
技术领域
[0001] 本公开涉及图像处理领域,尤其涉及一种图像识别方法及装置。
背景技术
[0002] 随着科技的发展,以及人们对便捷的人机交互方式的需求,机器学习中的深度学 习在图像识别领域得到了广泛应用。在机器学习领域,机器通过对大量图像进行深度学习, 可以得到较为准确的图像分类模型,基于该图像分类模型即可对图像进行自动识别。
[0003] 目前,常规的图像识别方法通常为:利用图像分类模型识别出图像中的物体,进而 按照该物体的类别对该图片进行描述。例如,对于一幅山水图像,利用图像分类模型可以识 别出该图像中的山川与河流,进而可以用"风景"描述该图像。再例如,对于一幅显示有一个 奔跑的小男孩的图像,利用图像分类模型可以识别出该图像中的男孩,进而可以用"人物" 描述该图像。
发明内容
[0004] 为克服相关技术中存在的问题,本公开提供了一种图像识别方法及装置。所述技 术方案如下:
[0005] 根据本公开实施例的第一方面,提供了一种图像识别方法,所述方法包括:
[0006] 获取目标图像,所述目标图像为待识别的图像;
[0007] 通过预设卷积神经网络模型对所述目标图像进行特征提取,得到所述目标图像的 属性向量,所述属性向量包括所述目标图像中存在多个预设词语属性的概率;
[0008] 通过预设循环神经网络模型对所述属性向量进行语义分析处理,得到所述目标图 像的描述语句,所述描述语句用于对所述目标图像的内容进行描述。
[0009] 可选地,所述方法还包括:
[0010] 基于所述多个预设词语属性,对待训练的卷积神经网络模型进行修改,得到第一 卷积神经网络模型;
[0011] 基于所述多个预设词语属性,对存储的多个训练图像的描述语句进行映射处理, 得到所述多个训练图像的属性向量;
[0012] 基于所述多个训练图像和所述多个训练图像的属性向量,对所述第一卷积神经网 络模型进行训练,得到第二卷积神经网络模型;
[0013] 将所述第二卷积神经网络模型和待训练的循环神经网络模型进行级联,得到联合 神经网络模型;
[0014] 基于所述多个训练图像和所述多个训练图像的描述语句,对所述联合神经网络模 型进行训练,得到所述预设卷积神经网络模型和所述预设循环神经网络模型。
[0015] 可选地,所述基于所述多个训练图像和所述多个训练图像的描述语句,对所述联 合神经网络模型进行训练,得到所述预设卷积神经网络模型和所述预设循环神经网络模 型,包括:
[0016] 基于所述多个训练图像,通过所述联合神经网络模型,确定所述多个训练图像的 训练语句;
[0017] 基于所述多个训练图像的描述语句和训练语句,通过预设损失函数,确定所述多 个训练图像的损失值;
[0018] 基于所述预设损失函数,对所述联合神经网络模型中的各个参数进行偏导运算, 得到所述各个参数的偏导函数;
[0019] 基于所述多个训练图像的损失值和所述各个参数的偏导函数,确定所述各个参数 的偏导值;
[0020] 采用随机梯度下降法,基于所述各个参数的偏导值对所述各个参数进行更新,基 于更新后的所述各个参数和所述联合神经网络模型,确定所述预设卷积神经网络模型和所 述预设循环神经网络模型。
[0021] 可选地,所述预设损失函数为:
Figure CN106446782AD00071
[0023] 其中,所述Loss (I,S)为训练图像I的损失值,所述S为所述训练图像I的描述语句; 所述St为所述训练图像I的描述语句中的第t个字符,所述t为小于或等于N的正整数;所述N 为所述训练图像I的描述语句包括的字符数量;所述Pt (St)为所述训练图像I的训练语句中 的第t个字符为所述训练图像I的描述语句中的第t个字符的概率。
[0024] 可选地,所述基于所述多个预设词语属性,对待训练的卷积神经网络模型进行修 改,得到第一卷积神经网络模型,包括:
[0025] 确定所述多个预设词语属性的数量;
[0026] 将所述待训练的卷积神经网络模型中的最后一个全连接层的节点数量修改为所 述多个预设词语属性的数量,并将所述待训练的卷积神经网络模型中类别互斥的分类网络 修改为多属性分类网络,得到所述第一卷积神经网络模型。
[0027] 可选地,所述基于所述多个预设词语属性,对存储的多个训练图像的描述语句进 行映射处理,得到所述多个训练图像的属性向量,包括:
[0028] 对于存储的所述多个训练图像中的每个训练图像,判断所述训练图像的描述语句 中是否存在所述多个预设词语属性中的每个预设词语属性;
[0029] 基于判断结果,确定所述训练图像的属性向量,所述属性向量中包括所述训练图 像的描述语句存在所述多个预设词语属性的概率。
[0030] 可选地,所述方法还包括:
[0031] 对所述多个训练图像的描述语句分别进行分词处理,得到多个词语;
[0032] 统计所述多个词语中每个词语的出现频率;
[0033] 按照所述每个词语的出现频率对所述多个词语进行排序,得到所述多个词语的顺 序;
[0034] 按照所述多个词语的顺序,从所述多个词语中确定所述多个预设词语属性。
[0035] 可选地,所述方法还包括:
[0036] 基于语音合成技术,将所述目标图像的描述语句由文字转换成语音;
[0037] 将转换为语音的描述语句进行播放。
[0038] 根据本公开实施例的第二方面,提供了一种图像识别装置,所述装置包括:
[0039] 获取模块,用于获取目标图像,所述目标图像为待识别的图像;
[0040] 特征提取模块,用于通过预设卷积神经网络模型对所述目标图像进行特征提取, 得到所述目标图像的属性向量,所述属性向量包括所述目标图像中存在多个预设词语属性 的概率;
[0041] 语义分析模块,用于通过预设循环神经网络模型对所述属性向量进行语义分析处 理,得到所述目标图像的描述语句,所述描述语句用于对所述目标图像的内容进行描述。 [0042] 可选地,所述装置还包括:
[0043] 修改模块,用于基于所述多个预设词语属性,对待训练的卷积神经网络模型进行 修改,得到第一卷积神经网络模型;
[0044] 映射处理模块,用于基于所述多个预设词语属性,对存储的多个训练图像的描述 语句进行映射处理,得到所述多个训练图像的属性向量;
[0045] 第一训练模块,用于基于所述多个训练图像和所述多个训练图像的属性向量,对 所述第一卷积神经网络模型进行训练,得到第二卷积神经网络模型;
[0046] 级联模块,用于将所述第二卷积神经网络模型和待训练的循环神经网络模型进行 级联,得到联合神经网络模型;
[0047] 第二训练模块,用于基于所述多个训练图像和所述多个训练图像的描述语句,对 所述联合神经网络模型进行训练,得到所述预设卷积神经网络模型和所述预设循环神经网 络模型。
[0048] 可选地,所述第二训练模块包括:
[0049] 第一确定子模块,用于基于所述多个训练图像,通过所述联合神经网络模型,确定 所述多个训练图像的训练语句;
[0050] 第二确定子模块,用于基于所述多个训练图像的描述语句和训练语句,通过预设 损失函数,确定所述多个训练图像的损失值;
[0051] 运算子模块,用于基于所述预设损失函数,对所述联合神经网络模型中的各个参 数进行偏导运算,得到所述各个参数的偏导函数;
[0052] 第三确定子模块,用于基于所述多个训练图像的损失值和所述各个参数的偏导函 数,确定所述各个参数的偏导值;
[0053] 第四确定子模块,用于采用随机梯度下降法,基于所述各个参数的偏导值对所述 各个参数进行更新,基于更新后的所述各个参数和所述联合神经网络模型,确定所述预设 卷积神经网络模型和所述预设循环神经网络模型。
[0054] 可选地,所述预设损失函数为:
Figure CN106446782AD00081
[0056] 其中,所述Loss (I,S)为训练图像I的损失值,所述S为所述训练图像I的描述语句; 所述St为所述训练图像I的描述语句中的第t个字符,所述t为小于或等于N的正整数;所述N 为所述训练图像I的描述语句包括的字符数量;所述Pt (St)为所述训练图像I的训练语句中 的第t个字符为所述训练图像I的描述语句中的第t个字符的概率。
[0057] 可选地,所述修改模块包括:
[0058] 第五确定子模块,用于确定所述多个预设词语属性的数量;
[0059] 修改子模块,用于将所述待训练的卷积神经网络模型中的最后一个全连接层的节 点数量修改为所述多个预设词语属性的数量,并将所述待训练的卷积神经网络模型中类别 互斥的分类网络修改为多属性分类网络,得到所述第一卷积神经网络模型。
[0060] 可选地,所述映射处理模块包括:
[0061] 判断子模块,用于对于存储的所述多个训练图像中的每个训练图像,判断所述训 练图像的描述语句中是否存在所述多个预设词语属性中的每个预设词语属性;
[0062] 第六确定子模块,用于基于判断结果,确定所述训练图像的属性向量,所述属性向 量中包括所述训练图像的描述语句存在所述多个预设词语属性的概率。
[0063] 可选地,所述装置还包括:
[0064] 分词处理模块,用于对所述多个训练图像的描述语句分别进行分词处理,得到多 个词语;
[0065] 统计模块,用于统计所述多个词语中每个词语的出现频率;
[0066] 排序模块,用于按照所述每个词语的出现频率对所述多个词语进行排序,得到所 述多个词语的顺序;
[0067] 确定模块,用于按照所述多个词语的顺序,从所述多个词语中确定所述多个预设 词语属性。
[0068] 可选地,所述装置还包括:
[0069] 转换模块,用于基于语音合成技术,将所述目标图像的描述语句由文字转换成语 音;
[0070] 播放模块,用于将转换为语音的描述语句进行播放。
[0071] 根据本公开实施例的第二方面,提供了一种图像识别装置,所述装置包括:
[0072] 处理器;
[0073]用于存储所述处理器可执行指令的存储器;
[0074] 其中,所述处理器用于:
[0075] 获取目标图像,所述目标图像为待识别的图像;
[0076] 通过预设卷积神经网络模型对所述目标图像进行特征提取,得到所述目标图像的 属性向量,所述属性向量包括所述目标图像中存在多个预设词语属性的概率;
[0077] 通过预设循环神经网络模型对所述属性向量进行语义分析处理,得到所述目标图 像的描述语句,所述描述语句用于对所述目标图像的内容进行描述。
[0078] 本公开的实施例提供的技术方案可以包括以下有益效果:
[0079] 本公开实施例中,可以获取待识别的目标图像,先通过预设卷积神经网络模型对 该目标图像进行特征提取,得到该目标图像的属性向量,该属性向量包括该目标图像中存 在多个预设词语属性的概率,再通过预设循环神经网络模型对该属性向量进行语义分析处 理,得到该目标图像的描述语句,且该描述语句用于对该目标图像的内容进行描述,也即 是,本公开可以将图像识别与自然语言处理相结合,实现将目标图像转换为文字形式的描 述语句,从而能够更加详细和形象地描述出目标图像的具体内容,提高了图像识别效果。
[0080] 应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不 能限制本公开。
附图说明
[0081] 此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施 例,并与说明书一起用于解释本公开的原理。
[0082] 图1是根据一示例性实施例示出的一种图像识别方法的流程图;
[0083]图2A是根据一示例性实施例示出的另一种图像识别方法的流程图;
[0084]图2B是根据一示例性实施例示出的一种图像识别的流程示意图;
[0085]图2C为根据一示例性实施例示出的一种联合神经网络模型的结构示意图;
[0086]图3A是根据一示例性实施例示出的一种图像识别装置的框图;
[0087]图3B是根据一示例性实施例示出的一种图像识别装置的框图;
[0088]图3C是根据一示例性实施例示出的一种第二训练模块308的结构示意图;
[0089]图3D是根据一不例性实施例不出的一种修改模型304的结构不意图;
[0090]图3E是根据一不例性实施例不出的一种映射处理模块305的结构不意图;
[0091]图3F是根据一示例性实施例示出的一种图像识别装置的框图;
[0092]图3G是根据一示例性实施例示出的一种图像识别装置的框图;
[0093]图4是根据一示例性实施例示出的一种图像识别装置400的框图。
具体实施方式
[0094] 这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及 附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例 中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附 权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
[0095] 在对本公开实施例进行详细的解释说明之前,先对本公开实施例的应用场景予以 介绍。常规的图像识别方法通常是利用图像分类模型识别出图像中的物体,进而按照该物 体的类别对该图片进行描述。但是,这种图像识别方法只能实现利用一种类别对图像进行 简单的描述,描述内容简单,描述形式单一,不能详细和形象地描述出图像中包括的具体内 容。为此,本公开提供了一种图像识别方法,以能够识别并详细地描述出图像的内容,从而 提高图像识别效果。
[0096] 本公开提供的方法应用于图像识别装置中,该图像识别装置可以为计算机、手机、 平板电脑等终端,当然也可以为其他能够实现图像识别的装置,本公开实施例对此不做限 定。进一步地,该图像识别装置可以通过图像处理软件实现图像识别,当然也可以通过其他 方式实现图像识别,本公开实施例对此也不做限定。为了便于描述,接下来以该图像识别装 置为终端为例进行说明。
[0097] 图1是根据一示例性实施例示出的一种图像识别方法的流程图,如图1所示,该方 法应用于终端中,该方法包括以下步骤:
[0098] 在步骤101中,获取目标图像,该目标图像为待识别的图像。
[0099] 在步骤102中,通过预设卷积神经网络模型对该目标图像进行特征提取,得到该目 标图像的属性向量,该属性向量包括该目标图像中存在多个预设词语属性的概率。
[0100] 在步骤103中,通过预设循环神经网络模型对该属性向量进行语义分析处理,得到 该目标图像的描述语句,该描述语句用于对该目标图像的内容进行描述。
[0101] 本公开实施例中,可以获取待识别的目标图像,先通过预设卷积神经网络模型对 该目标图像进行特征提取,得到该目标图像的属性向量,该属性向量包括该目标图像中存 在多个预设词语属性的概率,再通过预设循环神经网络模型对该属性向量进行语义分析处 理,得到该目标图像的描述语句,且该描述语句用于对该目标图像的内容进行描述,也即 是,本公开可以将图像识别与自然语言处理相结合,实现将目标图像转换为文字形式的描 述语句,从而能够更加详细和形象地描述出目标图像的具体内容,提高了图像识别效果。
[0102] 可选地,该方法还包括:
[0103] 基于该多个预设词语属性,对待训练的卷积神经网络模型进行修改,得到第一卷 积神经网络模型;
[0104] 基于该多个预设词语属性,对存储的多个训练图像的描述语句进行映射处理,得 到该多个训练图像的属性向量;
[0105] 基于该多个训练图像和该多个训练图像的属性向量,对该第一卷积神经网络模型 进行训练,得到第二卷积神经网络模型;
[0106] 将该第二卷积神经网络模型和待训练的循环神经网络模型进行级联,得到联合神 经网络模型;
[0107] 基于该多个训练图像和该多个训练图像的描述语句,对该联合神经网络模型进行 训练,得到该预设卷积神经网络模型和该预设循环神经网络模型。
[0108] 本公开实施例中,通过基于该多个预设词语属性,对待训练的卷积神经网络模型 进行修改,可以得到一个能够进行多属性分类的第一卷积神经网络模型,通过基于多个训 练图像和该多个训练图像的属性向量,对该第一卷积神经网络模型进行训练,并基于该多 个训练图像和该多个训练图像的描述语句,对联合神经网络模型进行训练,可以保证该第 一卷积神经网络模型和该联合神经网络模型能够在训练中进行深度学习,并在学习过程中 对模型中的参数进行调整和优化,从而保证得到的该预设卷积神经网络模型和该预设循环 神经网络模型,能够实现将目标图像转化为描述语句的功能。
[0109] 可选地,该基于该多个训练图像和该多个训练图像的描述语句,对该联合神经网 络模型进行训练,得到该预设卷积神经网络模型和该预设循环神经网络模型,包括:
[0110] 基于该多个训练图像,通过该联合神经网络模型,确定该多个训练图像的训练语 句;
[0111] 基于该多个训练图像的描述语句和训练语句,通过预设损失函数,确定该多个训 练图像的损失值;
[0112] 基于该预设损失函数,对该联合神经网络模型中的各个参数进行偏导运算,得到 该各个参数的偏导函数;
[0113] 基于该多个训练图像的损失值和该各个参数的偏导函数,确定该各个参数的偏导 值;
[0114] 采用随机梯度下降法,基于该各个参数的偏导值对该各个参数进行更新,基于更 新后的该各个参数和该联合神经网络模型,确定该预设卷积神经网络模型和该预设循环神 经网络模型。
[0115] 本公开实施例中,将训练图像输入至该联合神经网络模型后,能够得到一个实际 输出结果,即该训练图像的训练语句,之后,将该训练图像的训练语句与该训练图像的描述 语句进行比较,通过该预设损失函数即可计算出该训练图像的损失值,即实际得到的训练 语句与想要得到的描述语句之间的误差;而通过多个训练图像的损失值和各个参数的偏导 函数,可以确定各个参数的偏导值,即各个参数与想要得到的各个目标参数的误差;通过采 用随机梯度下降法,基于该各个参数的偏导值对该各个参数进行更新,也即是根据参数误 差对各个参数进行修正,得到各个目标参数,进而可以保证通过更新后的参数确定的模型, 能够实现将目标图像转换为描述语句的功能,达到训练目的。
[0116]可选地,该预设损失函数为:
Figure CN106446782AD00121
[0118] 其中,该Loss (I,S)为训练图像I的损失值,该S为该训练图像I的描述语句;该St为 该训练图像I的描述语句中的第t个字符,该t为小于或等于N的正整数;该N为该训练图像I 的描述语句包括的字符数量;该Pt (St)为该训练图像I的训练语句中的第t个字符为该训练 图像I的描述语句中的第t个字符的概率。
[0119] 本公开实施例中,预设损失函数的含义即是对该联合神经网络模型输出的训练语 句中的每个字符先单独进行计算,将该神经网络模型识别每个字符正确的概率取对数的相 反数作为这个字符的损失,然后将该训练语句中的所有字符的损失进行相加,即可得到该 训练图像的损失,即该联合神经网络模型对于该训练图像的识别误差。
[0120] 可选地,基于该多个预设词语属性,对预设卷积神经网络模型进行修改,得到第一 卷积神经网络模型,包括:
[0121] 确定该多个预设词语属性的数量;
[0122] 将该待训练的卷积神经网络模型中的最后一个全连接层的节点数量修改为该多 个预设词语属性的数量,并将该待训练的卷积神经网络模型中类别互斥的分类网络修改为 多属性分类网络,得到该第一卷积神经网络模型。
[0123] 本公开实施例中,通过将该预设卷积神经网络模型中的最后一个全连接层的节点 数量修改为该多个预设词语属性的数量,可以保证该预设卷积神经网络模型能够识别的类 别数量为要求的预设词语属性的数量,通过将该预设卷积神经网络模型中类别互斥的分类 网络修改为多属性分类网络,可以保证得到的第一卷积神经网络模型,能够进行多个设词 语属性的分类,进行能够获取目标图像中的高层次语义信息。
[0124] 可选地,基于该多个预设词语属性,对存储的多个训练图像的描述语句进行映射 处理,得到该多个训练图像的属性向量,包括:
[0125] 对于存储的该多个训练图像中的每个训练图像,判断该训练图像的描述语句中是 否存在该多个预设词语属性中的每个预设词语属性;
[0126] 基于判断结果,确定该训练图像的属性向量,该属性向量中包括该训练图像的描 述语句存在该多个预设词语属性的概率。
[0127] 本公开实施例中,通过将多个训练图像的描述语句进行映射处理,得到该多个训 练图像的属性向量,能够便于后续基于该多个训练图像和该多个训练图像的属性向量,对 修改得到的第一卷积神经网络模型进行训练,以便对该第一卷积神经网络模型的参数进行 调整和优化。
[0128] 可选地,该方法还包括:
[0129] 对该多个训练图像的描述语句分别进行分词处理,得到多个词语;
[0130] 统计该多个词语中每个词语的出现频率;
[0131] 按照该每个词语的出现频率对该多个词语进行排序,得到该多个词语的顺序;
[0132] 按照该多个词语的顺序,从该多个词语中确定该多个预设词语属性。
[0133] 本公开实施例中,通过对该多个训练图像的描述语句进行统计,可以得到图像中 经常出现的词语属性,通过将图像中经常出现的词语属性确定为多个预设词语属性,可以 保证该预设卷积神经网络模型能够准确地从目标图像中提取出高层次的语义信息,从而提 高了图像识别效果。
[0134] 可选地,该方法还包括:
[0135] 基于语音合成技术,将该目标图像的描述语句由文字转换成语音;
[0136] 将转换为语音的描述语句进行播放。
[0137] 本公开实施例中,通过将目标图像的描述语句转换成语音并播放,扩展了目标图 像的描述语句的应用范围,这种实现方式可以给视力障碍者带来极大地便利,让他们能够 听到目标图像中的内容。
[0138] 上述所有可选技术方案,均可按照任意结合形成本公开的可选实施例,本公开实 施例对此不再--赘述。
[0139] 图2A是根据一示例性实施例示出的一种图像识别方法的流程图,如图2A所示,该 方法应用于终端中,该方法包括以下步骤:
[0140] 在步骤201中,获取目标图像,该目标图像为待识别的图像。
[0141] 终端可以获取目标图像,以便对该目标图像进行识别,也即是按照下述步骤对该 目标图像进行处理。
[0142] 需要说明的是,终端获取目标图像的方式可以有多种,本公开实施例对获取目标 图像的方式不做限定。例如,获取目标图像的过程可以包括以下几种可能的实现方式:
[0143] 在第一种方式中,该终端可以提供图像提交入口,从而基于该图像提交入口获取 上传的图像,并将该上传的图像确定为目标图像。例如,当用户想要对某张图像进行识别 时,可以通过该图像提交入口将该图像上传至终端,当该终端基于该图像提交入口获取到 用户上传的图像后,即可将该图像确定为目标图像,以便对该目标图像进行识别。
[0M4] 在第二种方式中,该终端可以自动获取终端中的图像,并将该图像确定为目标图 像。例如,该终端可以获取当前接收的图像,从而将接收的图像确定为目标图像;或者,获取 当前显示的图像,从而将显示的图像确定为目标图像;或者,获取当前拍摄的图像,从而将 该拍摄的图像确定为目标图像,等等。
[0145] 在第三种方式中,该终端可以获取视频中的视频帧图像,并将该视频帧图像确定 为目标图像。其中,该视频可以为当前播放的视频、当前拍摄的视频等。
[0146] 在获取视频帧图像的过程中,该终端可以周期性地从该视频中获取视频帧图像, 可以实时地从该视频中获取视频帧图像,也可以在基于该视频检测到获取指令时,再从该 视频中获取视频帧图像,等等。其中,该获取指令可以由用户触发,用户可以通过指定操作 触发,该指定操作可以为点击操作、滑动操作、语音操作等,本公开实施例对此不做限定。
[0147] 例如,在终端播放视频的过程中,用户可以通过点击该播放界面的操作,触发该获 取指令,当用户接收到该获取指令时,即可获取当前显示的视频帧图像,并将该显示的视频 帧图像确定为目标图像。再例如,在终端拍摄视频的过程中,该终端可以每隔预设时长,从 拍摄得到的视频中获取一张视频帧图像,并将获取到的视频帧图像确定为目标图像。
[0148] 在步骤202中,通过预设卷积神经网络模型对该目标图像进行特征提取,得到该目 标图像的属性向量,该属性向量包括该目标图像中存在多个预设词语属性的概率。
[0149] 本公开实施例中,可以通过将目标图像转换成文字形式的描述语句,来实现对目 标图像的内容进行详细描述。而为了将目标图像转换成文字形式的描述语句,则需要先获 取目标图像中包括的高层次语义信息,即目标图像中包括的多个词语属性,以便根据该多 个词语属性生成一个描述语句。
[0150] 在深度学习方法中,卷积神经网络(CNN,Convolutional Neural Networks)模型 为主要应用于图像识别领域的神经网络模型,CNN模型能够提取图像中与位置无关的特征, 且利用共享卷积核的设计,还可以减少模型中的参数个数。在此基础上,本公开实施例可以 利用预设卷积神经网络模型,来获取目标图像中包括的高层次语义信息,即通过该预设卷 积神经网络模型对目标图像进行特征提取,得到该目标图像的属性向量,从而用该属性向 量指示该目标图像中包括的多个词语属性。
[0151]需要说明的是,该预设卷积神经网络模型为多属性分类网络模型,且包括多个预 设词语属性类别,从而可以通过特征提取,计算出该目标图像中存在该多个预设词语属性 中每个预设词语属性的概率,也即是提取的特征属于每个预设词语属性类别的概率。
[0152] 其中,该属性向量为一个固定长度的向量,即该属性向量包括多个属性概率,该多 个属性概率分别对应于多个预设词语属性,每个属性概率用于指示该目标图像中存在对应 预设词语属性的概率。
[0153] 需要说明的是,该多个预设词语属性为大量图像中经常出现的词语属性,可以通 过对大量图像的描述语句进行统计得到。在一种可能的实现方式中,该终端可以对多个训 练图像的描述语句分别进行分词处理,得到多个词语;统计该多个词语中每个词语的出现 频率;按照该每个词语的出现频率对该多个词语进行排序,得到该多个词语的顺序;按照该 多个词语的顺序,从该多个词语中确定该多个预设词语属性。
[0154] 其中,该多个训练图像的描述语句可以为人工对该多个训练图像标注的描述语 句,因此每个训练图像的描述语句可以较为准确地描述每个训练图像。另外,为了保证统计 的准确性,该终端可以获取大量的训练图像,以及每个训练图像对应的描述语句,以便对大 量的训练图像的描述语句进行统计。
[0155] 其中,在统计该多个词语中每个词语的出现频率时,还可以将意思相近的词语作 为同一个词语进行统计,以便提高统计的准确性。例如,可以将"跑步"和"奔跑"视为同一个 词语"跑",并将"跑步"的出现频率与"奔跑"的频率进行相加,得到"跑"的出现频率。
[0156] 其中,该终端可以按照该多个词语的顺序,从该多个词语中选取预设数目个词语, 即选取出现频率较高的预设数目个词语,并将选取的该预设数目个词语确定为该多个预设 词语属性。该预设数目可以由终端默认设置,也可以由用户设置,本公开实施例对此不做限 定。例如,可以将该预设数目设置为300、400、512等。
[0157] 在步骤203中,通过预设循环神经网络模型对该属性向量进行语义分析处理,得到 该目标图像的描述语句,该描述语句用于对该目标图像的内容进行描述。
[0158] 在深度学习方法中,循环神经网络(RNN,Recurrent Neural Networks)模型主要 应用于自然处理领域,RNN模型通过隐藏状态可以保留历史信息,即可以对前面的信息进行 记忆并应用于当前输出的计算中,例如在生成语句时,可以用前面的一个词语预测该语句 中的下一个词语是什么,因此RNN模型特别适用于处理时序的信息。
[0159] 在此基础上,本公开实施例可以通过预设循环神经网络模型中的指定算法,对该 属性向量进行语义分析处理,从而生成一个符合自然语言逻辑的描述语句,以便对该目标 图像的内容进行更加形象和详细的描述。其中,语义分词处理的过程相当于解码过程,即对 该属性向量进行解码,从而得到该目标图像的描述语句。
[0160] 例如,图2B是根据一示例性实施例示出的一种图像识别的流程示意图,参见图2B, 在对目标图像10进行识别过程中,通过预设卷积神经网络模型20对该目标图像10进行特征 提取,即可得到该目标图像的属性向量30,然后通过该预设循环神经网络模型40对该属性 向量30进行语义分析处理后,即可得到该目标图像的描述语句50。
[0161] 如图2B所示,该目标图像10中包括一个穿白衣服的小女孩和一个穿白衣服的小男 孩,且小女孩和小男孩一起在草地上愉快地奔跑,假设该指定神经网络模型20能够识别的 多个预设词语属性分别为食物、男孩、女孩、老人、草地、开心、伤心、太阳、跑等,则通过该预 设卷积神经网络模型20对该目标图像10进行特征提取,即可得到图2B中列表所示的属性向 量30。该列表指示了该目标图像中分别存在该多个预设词语属性的概率,且由该列表可以 看出,该目标图像中存在预设词语属性:男孩、女孩、草地、开心、跑的概率较大,因此该属性 向量能够较为精确的指示出该目标图像的高层次语义信息。之后,通过该预设循环神经网 络模型40对该属性向量30进行语义分析处理后,即可得到该目标图像的描述语句"一个穿 白衣服的小女孩和一个穿白衣服的小男孩在草地上愉快的奔跑",该描述语句能够比较详 细和形象地描述出该目标图像10的具体内容。
[0162] 需要说明的是,为了获取能够实现对目标图像进行特征提取得到属性向量功能的 预设卷积神经网络模型,以及获取能够实现对属性向量进行语义分析处理得到描述语句功 能的预设循环神经网络模型,还需预先基于大量训练图像,对待训练的卷积神经网络模型 和待训练的预设循环神经网络模型进行训练,并在训练中进行深度学习,得到能够实现上 述功能的预设卷积神经网络模型和预设循环神经网络模型。
[0163] 在一种可能的实现方式中,对待训练的卷积神经网络模型和待训练的预设循环神 经网络模型进行训练,得到该预设卷积神经网络模型和该预设循环神经网络模型的过程, 可以包括以下几个步骤:
[0164] 1)基于多个预设词语属性,对待训练的卷积神经网络模型进行修改,得到第一卷 积神经网络模型。
[0165] 其中,该多个预设词语属性可以通过对多个训练图像的描述语句进行统计得到, 具体实现过程可以参考步骤202中的描述,本公开实施例在此不再赘述。
[0166] 其中,该待训练的卷积神经网络模型为基于训练图像进行训练的过程中待训练的 卷积神经网络模型,且可以基于标准图像分类数据集,对指定卷积神经网络模型进行预训 练后得到,该指定卷积神经网络模型为在预训练过程中待训练的卷积神经网络模型。该待 训练的卷积神经网络模型以及该指定卷积神经网络模型可以为目前流行的VGG卷积神经网 络模型(一种卷积神经网络模型),也可以为其他卷积神经网络模型,本公开实施例对此不 做限定。该标准图像分类数据集中包括大量图像以及该大量图像分别对应的类别,可以为 ImageNet图像分类数据集(一种网络数据库中的标准图像分类数据集),当然也可以为其他 标准图像分类数据集,本公开实施例对此也不做限定。
[0167] 基于该标准图像分类数据集,对指定卷积神经网络模型进行训练,即可在训练的 过程中,对该指定卷积神经网络模型中各个计算层的参数进行调整,从而得到该待训练的 卷积神经网络模型。由于待训练的卷积神经网络模型中前几层计算层的参数,通常是与具 体任务无关的通用参数,因此可以通过预训练实现对通用参数的初始化。
[0168] 例如,该ImageNet图像分类数据集中可以包括一百万张图像,以及该一百万张图 像对应的1000种类别,通过对该一百万张图像以及对应的1000种类别,对该指定卷积神经 网络模型进行训练,即可得到该待训练的卷积神经网络模型。
[0169] 其中,基于该多个预设词语属性,对待训练的卷积神经网络模型进行修改,得到第 一卷积神经网络模型的实现过程可以包括:确定该多个预设词语属性的数量;将该待训练 的卷积神经网络模型中的最后一个全连接层的节点数量修改为该多个预设词语属性的数 量,并将该待训练的卷积神经网络模型中类别互斥的分类网络修改为多属性分类网络,得 到该第一卷积神经网络模型。
[0170] 由于标识卷积神经网络模型通常是一个分类网络模型,在基于标准图像分类数据 集进行预训练之后,得到的待训练的卷积神经网络模型能够识别的类别数量即为该标准图 像分类数据集中图像的类别数量,这跟要求该待训练的卷积神经网络模型能够识别的多个 预设词语属性的类别数量可能并不相同,因此,还需要将该待训练的卷积神经网络模型能 够识别的类别数量更改为该多个预设词语属性的数量。实际应用中,可以通过将该待训练 的卷积神经网络模型中的最后一个全连接层的节点数量修改为该多个预设词语属性的数 量来实现。
[0171]另外,由于常用的待训练的卷积神经网络模型在进行分类时,通常采用的都是类 别互斥的分类网络,即仅能将目标图像分类为多种类别中的一个类别,但是在本公开实施 例中,该目标图像中可能存在多个词语属性,即从该目标图像中提取的特征可能属于该多 个预设词语属性中的多个类别,因此,还需要将该待训练的卷积神经网络模型中采用的类 别互斥的分类网络修改为多属性分类网络。实际应用中,可以通过将待训练的卷积神经网 络模型中通常采用的Softmax层修改为Sigmoid逻辑回归层来实现。
[0172] 通过对待训练的卷积神经网络模型进行上述修改,可以得到一个多属性分类网络 模型,即第一卷积神经网络模型,且该第一卷积神经网络模型能够计算出目标图像中存在 多个类别中每个类别的概率。
[0173] 2)基于该多个预设词语属性,对存储的多个训练图像的描述语句进行映射处理, 得到该多个训练图像的属性向量。
[0174] 其中,该基于该多个预设词语属性,对存储的多个训练图像的描述语句进行映射 处理,得到该多个训练图像的属性向量的过程可以包括:对于存储的该多个训练图像中的 每个训练图像,判断该训练图像的描述语句中是否存在该多个预设词语属性中的每个预设 词语属性;基于判断结果,确定该训练图像的属性向量,该属性向量中包括该训练图像的描 述语句存在该多个预设词语属性的概率。
[0175] 其中,每个训练图像的属性向量中包括的属性概率的个数,等于该多个预设词语 属性的个数。
[0176] 实际应用中,由于属性向量中每个属性概率通常都是用0-1之间的数字来表示,因 此,基于判断结果,确定该训练图像的属性向量的过程可以为:当该训练图像的描述语句中 存在该多个预设词语属性中的任一预设词语属性时,将该属性向量中该预设词语属性对应 的属性概率置为1;当该训练图像的描述语句中不存在该多个预设词语属性中的任一预设 词语属性时,将该属性向量中该预设词语属性对应的属性概率置为〇,从而得到每个训练图 像的描述语句对应的属性向量。
[0177] 另外,该终端可以从存储的第一训练集中获取多个训练图像的描述语句,该第一 训练集中可以包括多个训练图像以及该多个训练图像对应的描述语句,且每个图像训练图 像的描述语句可以由人工标注得到。后续对该第一训练集中的每个训练图像的描述语句进 行映射处理后,可以得到第二训练集,该第二训练集中可以包括该多个训练图像以及该多 个训练图像的属性向量。
[0178] 例如,该第一训练集可以表示为C1= (IuSD,1 = 1,2,一,11;其中,(:1为第一训练 集,为第i张训练图片,Si为第i张训练图片对应的描述语句,η为训练图片的个数。后续对 该第一训练集&中的每张训练图像的描述语句进行映射处理后,得到的第二训练集可以表 示为C2= (Ii,U),i = l,2,···,n;其中,C2为第二训练集,Ii为第i张训练图片,Li为第i张训练 图片对应的属性向量,η为训练图片的个数。
[0179] 3)基于该多个训练图像和该多个训练图像的属性向量,对该第一卷积神经网络模 型进行训练,得到第二卷积神经网络模型。
[0180] 基于该多个训练图像和该多个训练图像的属性向量,可以对该第一卷积神经网络 模型进行进一步地调优训练,使得该第一卷积神经网络模型可以在训练过程中,对模型各 个计算层的参数进行调整和优化,以实现在对目标图像进行识别过程中,能够得到目标图 像的属性向量的功能。
[0181] 例如,该终端可以基于上述第二训练集C2,对该第一卷积神经网络模型进行训练, 得到第二卷积神经网络模型。
[0182] 4)将该第二卷积神经网络模型和待训练的循环神经网络模型进行级联,得到联合 神经网络模型。
[0183] 本公开实施例中,可以将该第二卷积神经网络模型和待训练的循环神经网络模型 进行级联,得到一个联合神经网络模型,即一个整体的CNN+RNN级联网络模型。
[0184] 级联时,可以将该第二卷积神经网络模型的输出接口与该待训练的循环神经网络 模型的输入接口进行连接,得到该联合神经网络模型。因此,当将一个训练图像输入至该联 合神经网络模型时,该联合神经网络模型中的第二卷积神经网络模型即可先对该训练图像 进行特征提取,得到该训练图像的属性向量;之后,即可将该第二卷积神经网络模型的输 出,也即是该训练图像的属性向量,作为该待训练的循环神经网络模型初始的隐藏状态 (Hidden State)输入,以使该待训练的循环神经网络模型可以对该属性向量进行语义分析 处理,得到该训练图像的训练语句。
[0185] 例如,图2C为根据一示例性实施例示出的一种联合神经网络模型的结构示意图, 参见图2C,该联合神经网络中包括第二卷积神经网络模型200和待训练的循环神经网络模 型300,且该第二卷积神经网络模型200的输出,即任一训练图像100的属性向量,可以作为 该待训练的循环神经网络模型300初始的隐藏状态(Hidden State)输入。
[0186] 5)基于该多个训练图像和该多个训练图像的描述语句,对该联合神经网络模型进 行训练,得到该预设卷积神经网络模型和该预设循环神经网络模型。
[0187] 本公开实施例中,该终端可以基于该多个训练图像和该多个训练图像的描述语 句,对该联合神经网络模型进行整体训练。例如,该终端可以基于上述第二训练集&,该联 合神经网络模型进行整体训练。
[0188] 需要说明的是,对该联合神经网络模型进行训练的过程,也就是对该联合神经网 络模型中的所有参数进行更新的过程,且训练的目标就是对各个参数进行更新以得到目标 参数,保证得到目标参数后的联合神经网络模型,能够实现将目标图像转换为描述语句的 功能。其中,该联合神经网络模型中的所有参数为跟具体任务有关的所有参数,该具体任务 为上述将目标图像转换为描述语句的任务。
[0189] 概括来讲,假设将该联合神经网络模型的所有参数用Θ表示,则训练的目的就是对 该参数Θ进行不断的更新,以得到最终的目标参数f,使得目标参数f能够满足下列公式:
Figure CN106446782AD00181
[0191] 其中,^为多个训练图像中的第i张训练图像,Si为该第i张训练图像的描述语句,η 为该多个训练图像的数量。且由该公式可以看出,该目标参数f为能够使得该联合神经网 络模型将每个训练图像识别为每个训练图像的描述语句的概率的对数和为最大值的参数。
[0192] 而为了得到满足上述要求的目标参数θ'可以采用损失函数进行训练,即基于该 多个训练图像和该多个训练图像的描述语句,对该联合神经网络模型进行训练,得到该预 设卷积神经网络模型和该预设循环神经网络模型的过程可以包括:基于该多个训练图像, 通过该联合神经网络模型,确定该多个训练图像的训练语句;基于该多个训练图像的描述 语句和训练语句,通过预设损失函数,确定该多个训练图像的损失值;基于该预设损失函 数,对该联合神经网络模型中的各个参数进行偏导运算,得到该各个参数的偏导函数;基于 该多个训练图像的损失值和该各个参数的偏导函数,确定该各个参数的偏导值;采用随机 梯度下降法,基于该各个参数的偏导值对该各个参数进行更新,基于更新后的该各个参数 和该联合神经网络模型,确定该预设卷积神经网络模型和该预设循环神经网络模型。
[0193] 其中,该预设损失函数可以为:
Figure CN106446782AD00182
[0195] 其中,Loss (I,S)为训练图像I的损失值,S为训练图像I的描述语句;St为训练图像 I的描述语句中的第t个字符,t为小于或等于N的正整数;N为训练图像I的描述语句包括的 字符数量;Pt (St)为训练图像I的训练语句中的第t个字符为训练图像I的描述语句中的第t 个字符的概率。
[0196] 需要说明的是,该多个训练图像的训练语句为将该多个训练图像输入至该联合神 经网络模型后,该联合神经网络模型实际输出的语句。且成功训练之前,该联合神经网络模 型实际输出的训练语句,与最终想要得到的该训练图像的描述语句之间会存在一定的误 差,而该训练过程,即是对误差进行修正的过程。
[0197] 其中,该预设损失函数用于计算训练图像的损失值,该损失值可以表示训练图像 的训练语句与训练图像的描述语句之间的误差。且由上述预设损失函数的公式可以看出, 预设损失函数的含义即是对该联合神经网络模型输出的训练语句中的每个字符先单独进 行计算,并将该神经网络模型识别每个字符正确的概率取对数的相反数来作为这个字符的 损失,然后将该训练语句中的所有字符的损失进行相加,即可得到该训练图像的损失值,且 该训练图像的损失值即为该联合神经网络模型对于该训练图像的识别误差。
[0198] 另外,基于该预设损失函数,对该联合神经网络模型中的各个参数进行偏导运算, 可以将损失值进行方向传播,使得所得到各个参数的偏导函数可以用于指示各个参数的误 差,从而实现将训练语句与描述语句的误差通过求偏导,转换为各个参数的误差。
[0199] 而对于每个训练图像的训练过程来说,训练的过程就是,向该联合神经网络模型 输入一张训练图像,然后根据该预设损失函数计算该训练图像的损失值,将该损失值代入 各个参数的偏导函数,即可确定出各个参数的偏导值,即各个参数的具体误差值。之后,采 用随机梯度下降法,基于该各个参数的偏导值对该各个参数进行更新,即可实现对各个参 数误差的修正,从而完成对各个参数的一次调整。之后,不断的输入训练图像,重复上述过 程,该联合神经网络模型的各个参数就会进行不断的学习,经过多次更新后即可实现将各 个参数调整为目标参数,从而完成训练。
[0200] 与单独使用两个神经网络模型相比,该联合神经网络模型有更强的模型拟合能 力,能够进行端到端的整体优化,即能够进行图像与描述语句的整体优化,从而能够达到更 好的训练效果。通过该整体训练之后,即可得到该预设卷积神经网络模型和该预设循环神 经网络模型,从而训练后的联合神经网络模型也就能够实现将目标图像转化为描述语句的 功能。
[0201] 需要说明的是,在对该联合神经网络模型进行整体训练的过程中,由于联合神经 网络模型中的第二卷积神经网络模型已经经过了一次预训练和一次调优训练,从而该第二 卷积神经网络模型中的参数已经基本达到了功能实现的要求,因此,在该整体训练过程中, 主要是对该预设循环神经网络模型中参数的优化和调整,使其能够实现对属性向量进行语 义分析处理得到描述语句的功能,当然也会对该第二卷积神经网络模型中的参数进行微 调,使得模型中的参数更为精确。
[0202] 本公开实施例中,可以将CNN模型和RNN模型,通过可以指示目标图像的高层次语 义信息的属性向量连接起来,使得两种不同类型的神经网络模型能够完成信息的传递,并 且能够进行端到端的训练,进而使得这两种神经网络模型组成的联合神经网络模型有更强 大的拟合能力。
[0203] 在步骤204中,基于语音合成技术,将该目标图像的描述语句由文字转换成语音。
[0204] 在步骤205中,将转换为语音的描述语句进行播放。
[0205] 通过步骤204和205,该终端还可以将目标图像的描述语句转换成语音并播放,这 种实现方式可以给视力障碍者带来极大地便利,让他们能够听到目标图像中的内容。例如, 该终端可以获取当前拍摄得到的目标图像,并对该目标图像进行自动识别,从而将该目标 图像转化为文字形式的描述语句,然后再将该描述语句自动转换成语音并播放出来,从而 使得视力障碍者可以通过拍摄图像"看到"周围环境。
[0206]需要说明的是,本公开实施例仅是以将目标图像的描述语句转换成语音并播放为 例进行说明,而实际应用中,通过图像识别得到的该目标图像的描述语句还可以有其他应 用场景。
[0207] 例如,该终端可以将目标图像的描述语句由正常格式转换为盲文格式,以便后续 可以将该目标图像的描述语句按照盲文格式打印出来,供视力障碍者阅读。
[0208] 再例如,该终端还可以将得到的多个目标图像的描述语句与该多个目标图像对应 上传至图像数据库,以便后续可以通过更多的关键词从该图像数据库中检索到匹配的图 像,从而能够使得用户能够更加精确地检索到想要的图像。
[0209] 综上所述,本公开实施例中,终端可以获取待识别的目标图像,并先通过预设卷积 神经网络模型对该目标图像进行特征提取,得到该目标图像的属性向量,该属性向量包括 该目标图像中存在多个预设词语属性的概率,再通过预设循环神经网络模型对该属性向量 进行语义分析处理,得到该目标图像的描述语句,且该描述语句用于对该目标图像的内容 进行描述,也即是,本公开可以将图像识别与自然语言处理相结合,实现将目标图像转换为 文字形式的描述语句,从而能够更加详细和形象地描述出目标图像的具体内容,提高了图 像识别效果。
[0210] 图3A是根据一示例性实施例示出的一种图像识别装置的框图。参照图3A,该装置 包括获取模块301,特征提取模块302和语义分析模块303。
[0211] 该获取模块301,用于获取目标图像,该目标图像为待识别的图像;
[0212]该特征提取模块302,用于通过预设卷积神经网络模型对该目标图像进行特征提 取,得到该目标图像的属性向量,该属性向量包括该目标图像中存在多个预设词语属性的 概率;
[0213]该语义分析模块303,用于通过预设循环神经网络模型对该属性向量进行语义分 析处理,得到该目标图像的描述语句,该描述语句用于对该目标图像的内容进行描述。
[0214] 可选地,参见图3B,该装置还包括:
[0215] 修改模块304,用于基于该多个预设词语属性,对待训练的卷积神经网络模型进行 修改,得到第一卷积神经网络模型;
[0216]映射处理模块305,用于基于该多个预设词语属性,对存储的多个训练图像的描述 语句进行映射处理,得到该多个训练图像的属性向量;
[0217] 第一训练模块306,用于基于该多个训练图像和该多个训练图像的属性向量,对该 第一卷积神经网络模型进行训练,得到第二卷积神经网络模型;
[0218] 级联模块307,用于将该第二卷积神经网络模型和待训练的循环神经网络模型进 行级联,得到联合神经网络模型;
[0219] 第二训练模块308,用于基于该多个训练图像和该多个训练图像的描述语句,对该 联合神经网络模型进行训练,得到该预设卷积神经网络模型和该预设循环神经网络模型。
[0220] 可选地,参见图3C,该第二训练模块308包括:
[0221] 第一确定子模块3081,用于基于该多个训练图像,通过该联合神经网络模型,确定 该多个训练图像的训练语句;
[0222] 第二确定子模块3082,用于基于该多个训练图像的描述语句和训练语句,通过预 设损失函数,确定该多个训练图像的损失值;
[0223] 运算子模块3083,用于基于该预设损失函数,对该联合神经网络模型中的各个参 数进行偏导运算,得到该各个参数的偏导函数;
[0224] 第三确定子模块3084,用于基于该多个训练图像的损失值和该各个参数的偏导函 数,确定该各个参数的偏导值;
[0225] 第四确定子模块3085,用于采用随机梯度下降法,基于该各个参数的偏导值对该 各个参数进行更新,基于更新后的该各个参数和该联合神经网络模型,确定该预设卷积神 经网络模型和该预设循环神经网络模型。
[0226] 可选地,该预设损失函数为:
Figure CN106446782AD00211
[0228] 其中,该Loss (I,S)为训练图像I的损失值,该S为该训练图像I的描述语句;该St为 该训练图像I的描述语句中的第t个字符,该t为小于或等于N的正整数;该N为该训练图像I 的描述语句包括的字符数量;该Pt (St)为该训练图像I的训练语句中的第t个字符为该训练 图像I的描述语句中的第t个字符的概率。
[0229] 可选地,参见图3D,该修改模块304包括:
[0230] 第五确定子模块3041,用于确定该多个预设词语属性的数量;
[0231] 修改子模块3042,用于将该待训练的卷积神经网络模型中的最后一个全连接层的 节点数量修改为该多个预设词语属性的数量,并将该待训练的卷积神经网络模型中类别互 斥的分类网络修改为多属性分类网络,得到该第一卷积神经网络模型。
[0232] 可选地,参见图3E,该映射处理模块305包括:
[0233] 判断子模块3051,用于对于存储的该多个训练图像中的每个训练图像,判断该训 练图像的描述语句中是否存在该多个预设词语属性中的每个预设词语属性;
[0234] 第六确定子模块3052,用于基于判断结果,确定该训练图像的属性向量,该属性向 量中包括该训练图像的描述语句存在该多个预设词语属性的概率。
[0235] 可选地,参见图3F,该装置还包括:
[0236] 分词处理模块309,用于对该多个训练图像的描述语句分别进行分词处理,得到多 个词语;
[0237] 统计模块310,用于统计该多个词语中每个词语的出现频率;
[0238] 排序模块311,用于按照该每个词语的出现频率对该多个词语进行排序,得到该多 个词语的顺序;
[0239] 确定模块312,用于按照该多个词语的顺序,从该多个词语中确定该多个预设词语 属性。
[0240] 可选地,参见图3G,该装置还包括:
[0241] 转换模块313,用于基于语音合成技术,将该目标图像的描述语句由文字转换成语 音;
[0242] 播放模块314,用于将转换为语音的描述语句进行播放。
[0243] 本公开实施例中,图像识别装置可以获取待识别的目标图像,先通过预设卷积神 经网络模型对该目标图像进行特征提取,得到该目标图像的属性向量,该属性向量包括该 目标图像中存在多个预设词语属性的概率,再通过预设循环神经网络模型对该属性向量进 行语义分析处理,得到该目标图像的描述语句,且该描述语句用于对该目标图像的内容进 行描述,也即是,本公开可以将图像识别与自然语言处理相结合,实现将目标图像转换为文 字形式的描述语句,从而能够更加详细和形象地描述出目标图像的具体内容,提高了图像 识别效果。
[0244] 关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法 的实施例中进行了详细描述,此处将不做详细阐述说明。
[0245] 图4是根据一示例性实施例示出的一种图像识别装置400的框图。例如,装置400可 以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健 身设备,个人数字助理等。
[0246] 参照图4,装置400可以包括以下一个或多个组件:处理组件402,存储器404,电源 组件406,多媒体组件408,音频组件410,输入/输出(I/O)的接口412,传感器组件414,以及 通信组件416。
[0247] 处理组件402通常控制装置400的整体操作,诸如与显示,电话呼叫,数据通信,相 机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指 令,以完成上述的方法的全部或部分步骤。此外,处理组件402可以包括一个或多个模块,便 于处理组件402和其他组件之间的交互。例如,处理组件402可以包括多媒体模块,以方便多 媒体组件408和处理组件402之间的交互。
[0248] 存储器404被配置为存储各种类型的数据以支持在装置400的操作。这些数据的示 例包括用于在装置400上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消 息,图片,视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组 合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPR0M),可擦除可编 程只读存储器(EPROM),可编程只读存储器(PR0M),只读存储器(ROM),磁存储器,快闪存储 器,磁盘或光盘。
[0249] 电源组件406为装置400的各种组件提供电源。电源组件406可以包括电源管理系 统,一个或多个电源,及其他与为装置400生成、管理和分配电源相关联的组件。
[0250]多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一 些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏 幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感 器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作 的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒 体组件408包括一个前置摄像头和/或后置摄像头。当装置400处于操作模式,如拍摄模式或 视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和 后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
[0251] 音频组件410被配置为输出和/或输入音频信号。例如,音频组件410包括一个麦克 风(MIC),当装置400处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配 置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组 件416发送。在一些实施例中,音频组件410还包括一个扬声器,用于输出音频信号。
[0252] I/O接口 412为处理组件40 2和外围接口模块之间提供接口,上述外围接口模块可 以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁 定按钮。
[0253] 传感器组件414包括一个或多个传感器,用于为装置400提供各个方面的状态评 估。例如,传感器组件414可以检测到装置400的打开/关闭状态,组件的相对定位,例如所述 组件为装置400的显示器和小键盘,传感器组件414还可以检测装置400或装置400-个组件 的位置改变,用户与装置400接触的存在或不存在,装置400方位或加速/减速和装置400的 温度变化。传感器组件414可以包括接近传感器,被配置用来在没有任何的物理接触时检测 附近物体的存在。传感器组件414还可以包括光传感器,如CMOS或C⑶图像传感器,用于在成 像应用中使用。在一些实施例中,该传感器组件414还可以包括加速度传感器,陀螺仪传感 器,磁传感器,压力传感器或温度传感器。
[0254] 通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置 400可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施 例中,通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。 在一个示例性实施例中,所述通信组件416还包括近场通信(NFC)模块,以促进短程通信。例 如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术, 蓝牙(BT)技术和其他技术来实现。
[0255] 在示例性实施例中,装置400可以被一个或多个应用专用集成电路(ASIC)、数字信 号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列 (FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
[0256] 在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例 如包括指令的存储器404,上述指令可由装置400的处理器420执行以完成上述方法。例如, 所述非临时性计算机可读存储介质可以是R0M、随机存取存储器(RAM)、CD-R0M、磁带、软盘 和光数据存储设备等。
[0257] 一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理 器执行时,使得移动终端能够执行一种图像识别方法,所述方法包括:
[0258] 获取目标图像,所述目标图像为待识别的图像;
[0259] 通过预设卷积神经网络模型对所述目标图像进行特征提取,得到所述目标图像的 属性向量,所述属性向量包括所述目标图像中存在多个预设词语属性的概率;
[0260] 通过预设循环神经网络模型对所述属性向量进行语义分析处理,得到所述目标图 像的描述语句,所述描述语句用于对所述目标图像的内容进行描述。
[0261] 可选地,所述方法还包括:
[0262] 基于所述多个预设词语属性,对待训练的卷积神经网络模型进行修改,得到第一 卷积神经网络模型;
[0263] 基于所述多个预设词语属性,对存储的多个训练图像的描述语句进行映射处理, 得到所述多个训练图像的属性向量;
[0264] 基于所述多个训练图像和所述多个训练图像的属性向量,对所述第一卷积神经网 络模型进行训练,得到第二卷积神经网络模型;
[0265] 将所述第二卷积神经网络模型和待训练的循环神经网络模型进行级联,得到联合 神经网络模型;
[0266] 基于所述多个训练图像和所述多个训练图像的描述语句,对所述联合神经网络模 型进行训练,得到所述预设卷积神经网络模型和所述预设循环神经网络模型。
[0267] 可选地,所述基于所述多个训练图像和所述多个训练图像的描述语句,对所述联 合神经网络模型进行训练,得到所述预设卷积神经网络模型和所述预设循环神经网络模 型,包括:
[0268] 基于所述多个训练图像,通过所述联合神经网络模型,确定所述多个训练图像的 训练语句;
[0269] 基于所述多个训练图像的描述语句和训练语句,通过预设损失函数,确定所述多 个训练图像的损失值;
[0270] 基于所述预设损失函数,对所述联合神经网络模型中的各个参数进行偏导运算, 得到所述各个参数的偏导函数;
[0271] 基于所述多个训练图像的损失值和所述各个参数的偏导函数,确定所述各个参数 的偏导值;
[0272] 采用随机梯度下降法,基于所述各个参数的偏导值对所述各个参数进行更新,基 于更新后的所述各个参数和所述联合神经网络模型,确定所述预设卷积神经网络模型和所 述预设循环神经网络模型。
[0273]可选地,所述预设损失函数为:
Figure CN106446782AD00241
[0275] 其中,所述Loss (I,S)为训练图像I的损失值,所述S为所述训练图像I的描述语句; 所述St为所述训练图像I的描述语句中的第t个字符,所述t为小于或等于N的正整数;所述N 为所述训练图像I的描述语句包括的字符数量;所述pt (St)为所述训练图像I的训练语句中 的第t个字符为所述训练图像I的描述语句中的第t个字符的概率。
[0276] 可选地,所述基于所述多个预设词语属性,对待训练的卷积神经网络模型进行修 改,得到第一卷积神经网络模型,包括:
[0277] 确定所述多个预设词语属性的数量;
[0278] 将所述待训练的卷积神经网络模型中的最后一个全连接层的节点数量修改为所 述多个预设词语属性的数量,并将所述待训练的卷积神经网络模型中类别互斥的分类网络 修改为多属性分类网络,得到所述第一卷积神经网络模型。
[0279] 可选地,所述基于所述多个预设词语属性,对存储的多个训练图像的描述语句进 行映射处理,得到所述多个训练图像的属性向量,包括:
[0280] 对于存储的所述多个训练图像中的每个训练图像,判断所述训练图像的描述语句 中是否存在所述多个预设词语属性中的每个预设词语属性;
[0281] 基于判断结果,确定所述训练图像的属性向量,所述属性向量中包括所述训练图 像的描述语句存在所述多个预设词语属性的概率。
[0282] 可选地,所述方法还包括:
[0283] 对所述多个训练图像的描述语句分别进行分词处理,得到多个词语;
[0284] 统计所述多个词语中每个词语的出现频率;
[0285] 按照所述每个词语的出现频率对所述多个词语进行排序,得到所述多个词语的顺 序;
[0286] 按照所述多个词语的顺序,从所述多个词语中确定所述多个预设词语属性。
[0287] 可选地,所述方法还包括:
[0288] 基于语音合成技术,将所述目标图像的描述语句由文字转换成语音;
[0289] 将转换为语音的描述语句进行播放。
[0290] 本公开实施例中,图像识别装置可以获取待识别的目标图像,先通过预设卷积神 经网络模型对该目标图像进行特征提取,得到该目标图像的属性向量,该属性向量包括该 目标图像中存在多个预设词语属性的概率,再通过预设循环神经网络模型对该属性向量进 行语义分析处理,得到该目标图像的描述语句,且该描述语句用于对该目标图像的内容进 行描述,也即是,本公开可以将图像识别与自然语言处理相结合,实现将目标图像转换为文 字形式的描述语句,从而能够更加详细和形象地描述出目标图像的具体内容,提高了图像 识别效果。
[0291] 本领域技术人员在考虑说明书及实践这里公开的方案后,将容易想到本公开的其 它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或 者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识 或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的 权利要求指出。
[0292] 应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并 且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (17)

1. 一种图像识别方法,其特征在于,所述方法包括: 获取目标图像,所述目标图像为待识别的图像; 通过预设卷积神经网络模型对所述目标图像进行特征提取,得到所述目标图像的属性 向量,所述属性向量包括所述目标图像中存在多个预设词语属性的概率; 通过预设循环神经网络模型对所述属性向量进行语义分析处理,得到所述目标图像的 描述语句,所述描述语句用于对所述目标图像的内容进行描述。
2. 如权利要求1所述的方法,其特征在于,所述方法还包括: 基于所述多个预设词语属性,对待训练的卷积神经网络模型进行修改,得到第一卷积 神经网络模型; 基于所述多个预设词语属性,对存储的多个训练图像的描述语句进行映射处理,得到 所述多个训练图像的属性向量; 基于所述多个训练图像和所述多个训练图像的属性向量,对所述第一卷积神经网络模 型进行训练,得到第二卷积神经网络模型; 将所述第二卷积神经网络模型和待训练的循环神经网络模型进行级联,得到联合神经 网络模型; 基于所述多个训练图像和所述多个训练图像的描述语句,对所述联合神经网络模型进 行训练,得到所述预设卷积神经网络模型和所述预设循环神经网络模型。
3. 如权利要求1所述的方法,其特征在于,所述基于所述多个训练图像和所述多个训练 图像的描述语句,对所述联合神经网络模型进行训练,得到所述预设卷积神经网络模型和 所述预设循环神经网络模型,包括: 基于所述多个训练图像,通过所述联合神经网络模型,确定所述多个训练图像的训练 语句; 基于所述多个训练图像的描述语句和训练语句,通过预设损失函数,确定所述多个训 练图像的损失值; 基于所述预设损失函数,对所述联合神经网络模型中的各个参数进行偏导运算,得到 所述各个参数的偏导函数; 基于所述多个训练图像的损失值和所述各个参数的偏导函数,确定所述各个参数的偏 导值; 采用随机梯度下降法,基于所述各个参数的偏导值对所述各个参数进行更新,基于更 新后的所述各个参数和所述联合神经网络模型,确定所述预设卷积神经网络模型和所述预 设循环神经网络模型。
4. 如权利要求3所述的方法,其特征在于,所述预设损失函数为:
Figure CN106446782AC00021
其中,所述Loss (I,S)为训练图像I的损失值,所述S为所述训练图像I的描述语句;所述 St为所述训练图像I的描述语句中的第t个字符,所述t为小于或等于N的正整数;所述N为所 述训练图像I的描述语句包括的字符数量;所述Pt (St)为所述训练图像I的训练语句中的第t 个字符为所述训练图像I的描述语句中的第t个字符的概率。
5. 如权利要求2所述的方法,其特征在于,所述基于所述多个预设词语属性,对待训练 的卷积神经网络模型进行修改,得到第一卷积神经网络模型,包括: 确定所述多个预设词语属性的数量; 将所述待训练的卷积神经网络模型中的最后一个全连接层的节点数量修改为所述多 个预设词语属性的数量,并将所述待训练的卷积神经网络模型中类别互斥的分类网络修改 为多属性分类网络,得到所述第一卷积神经网络模型。
6. 如权利要求2所述的方法,其特征在于,所述基于所述多个预设词语属性,对存储的 多个训练图像的描述语句进行映射处理,得到所述多个训练图像的属性向量,包括: 对于存储的所述多个训练图像中的每个训练图像,判断所述训练图像的描述语句中是 否存在所述多个预设词语属性中的每个预设词语属性; 基于判断结果,确定所述训练图像的属性向量,所述属性向量中包括所述训练图像的 描述语句存在所述多个预设词语属性的概率。
7. 如权利要求2所述的方法,其特征在于,所述方法还包括: 对所述多个训练图像的描述语句分别进行分词处理,得到多个词语; 统计所述多个词语中每个词语的出现频率; 按照所述每个词语的出现频率对所述多个词语进行排序,得到所述多个词语的顺序; 按照所述多个词语的顺序,从所述多个词语中确定所述多个预设词语属性。
8. 如权利要求1-7任一所述的方法,其特征在于,所述方法还包括: 基于语音合成技术,将所述目标图像的描述语句由文字转换成语音; 将转换为语音的描述语句进行播放。
9. 一种图像识别装置,其特征在于,所述装置包括: 获取模块,用于获取目标图像,所述目标图像为待识别的图像; 特征提取模块,用于通过预设卷积神经网络模型对所述目标图像进行特征提取,得到 所述目标图像的属性向量,所述属性向量包括所述目标图像中存在多个预设词语属性的概 率; 语义分析模块,用于通过预设循环神经网络模型对所述属性向量进行语义分析处理, 得到所述目标图像的描述语句,所述描述语句用于对所述目标图像的内容进行描述。
10. 如权利要求9所述的装置,其特征在于,所述装置还包括: 修改模块,用于基于所述多个预设词语属性,对待训练的卷积神经网络模型进行修改, 得到第一卷积神经网络模型; 映射处理模块,用于基于所述多个预设词语属性,对存储的多个训练图像的描述语句 进行映射处理,得到所述多个训练图像的属性向量; 第一训练模块,用于基于所述多个训练图像和所述多个训练图像的属性向量,对所述 第一卷积神经网络模型进行训练,得到第二卷积神经网络模型; 级联模块,用于将所述第二卷积神经网络模型和待训练的循环神经网络模型进行级 联,得到联合神经网络模型; 第二训练模块,用于基于所述多个训练图像和所述多个训练图像的描述语句,对所述 联合神经网络模型进行训练,得到所述预设卷积神经网络模型和所述预设循环神经网络模 型。
11. 如权利要求9所述的方法,其特征在于,所述第二训练模块包括: 第一确定子模块,用于基于所述多个训练图像,通过所述联合神经网络模型,确定所述 多个训练图像的训练语句; 第二确定子模块,用于基于所述多个训练图像的描述语句和训练语句,通过预设损失 函数,确定所述多个训练图像的损失值; 运算子模块,用于基于所述预设损失函数,对所述联合神经网络模型中的各个参数进 行偏导运算,得到所述各个参数的偏导函数; 第三确定子模块,用于基于所述多个训练图像的损失值和所述各个参数的偏导函数, 确定所述各个参数的偏导值; 第四确定子模块,用于采用随机梯度下降法,基于所述各个参数的偏导值对所述各个 参数进行更新,基于更新后的所述各个参数和所述联合神经网络模型,确定所述预设卷积 神经网络模型和所述预设循环神经网络模型。
12. 如权利要求11所述的方法,其特征在于,所述预设损失函数为:
Figure CN106446782AC00041
其中,所述Loss (I,S)为训练图像I的损失值,所述S为所述训练图像I的描述语句;所述 St为所述训练图像I的描述语句中的第t个字符,所述t为小于或等于N的正整数;所述N为所 述训练图像I的描述语句包括的字符数量;所述Pt (St)为所述训练图像I的训练语句中的第t 个字符为所述训练图像I的描述语句中的第t个字符的概率。
13. 如权利要求10所述的装置,其特征在于,所述修改模块包括: 第五确定子模块,用于确定所述多个预设词语属性的数量; 修改子模块,用于将所述待训练的卷积神经网络模型中的最后一个全连接层的节点数 量修改为所述多个预设词语属性的数量,并将所述待训练的卷积神经网络模型中类别互斥 的分类网络修改为多属性分类网络,得到所述第一卷积神经网络模型。
14. 如权利要求10所述的装置,其特征在于,所述映射处理模块包括: 判断子模块,用于对于存储的所述多个训练图像中的每个训练图像,判断所述训练图 像的描述语句中是否存在所述多个预设词语属性中的每个预设词语属性; 第六确定子模块,用于基于判断结果,确定所述训练图像的属性向量,所述属性向量中 包括所述训练图像的描述语句存在所述多个预设词语属性的概率。
15. 如权利要求10所述的装置,其特征在于,所述装置还包括: 分词处理模块,用于对所述多个训练图像的描述语句分别进行分词处理,得到多个词 语; 统计模块,用于统计所述多个词语中每个词语的出现频率; 排序模块,用于按照所述每个词语的出现频率对所述多个词语进行排序,得到所述多 个词语的顺序; 确定模块,用于按照所述多个词语的顺序,从所述多个词语中确定所述多个预设词语 属性。
16. 如权利要求9-15任一所述的装置,其特征在于,所述装置还包括: 转换模块,用于基于语音合成技术,将所述目标图像的描述语句由文字转换成语音; 播放模块,用于将转换为语音的描述语句进行播放。
17. -种图像识别装置,其特征在于,所述装置包括: 处理器; 用于存储所述处理器可执行指令的存储器; 其中,所述处理器用于: 获取目标图像,所述目标图像为待识别的图像; 通过预设卷积神经网络模型对所述目标图像进行特征提取,得到所述目标图像的属性 向量,所述属性向量包括所述目标图像中存在多个预设词语属性的概率; 通过预设循环神经网络模型对所述属性向量进行语义分析处理,得到所述目标图像的 描述语句,所述描述语句用于对所述目标图像的内容进行描述。
CN201610757663.7A 2016-08-29 2016-08-29 图像识别方法及装置 CN106446782A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610757663.7A CN106446782A (zh) 2016-08-29 2016-08-29 图像识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610757663.7A CN106446782A (zh) 2016-08-29 2016-08-29 图像识别方法及装置

Publications (1)

Publication Number Publication Date
CN106446782A true CN106446782A (zh) 2017-02-22

Family

ID=58090850

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610757663.7A CN106446782A (zh) 2016-08-29 2016-08-29 图像识别方法及装置

Country Status (1)

Country Link
CN (1) CN106446782A (zh)

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107123027A (zh) * 2017-04-28 2017-09-01 广东工业大学 一种基于深度学习的化妆品推荐方法及系统
CN107145910A (zh) * 2017-05-08 2017-09-08 京东方科技集团股份有限公司 医学影像的表现生成系统、其训练方法及表现生成方法
CN107330392A (zh) * 2017-06-26 2017-11-07 司马大大(北京)智能系统有限公司 视频场景标注装置与方法
CN107563351A (zh) * 2017-09-22 2018-01-09 杰峯信息科技(中山)有限公司 一种基于自然语言处理的图像识别方法
CN107908641A (zh) * 2017-09-27 2018-04-13 百度在线网络技术(北京)有限公司 一种获取图片标注数据的方法和系统
CN107944447A (zh) * 2017-12-15 2018-04-20 北京小米移动软件有限公司 图像分类方法及装置
CN107958415A (zh) * 2017-10-31 2018-04-24 阿里巴巴集团控股有限公司 证券信息播报方法及装置
CN108230413A (zh) * 2018-01-23 2018-06-29 北京市商汤科技开发有限公司 图像描述方法和装置、电子设备、计算机存储介质、程序
CN108228686A (zh) * 2017-06-15 2018-06-29 北京市商汤科技开发有限公司 用于实现图文匹配的方法、装置和电子设备
CN108229379A (zh) * 2017-12-29 2018-06-29 广东欧珀移动通信有限公司 图像识别方法、装置、计算机设备和存储介质
CN108268629A (zh) * 2018-01-15 2018-07-10 北京市商汤科技开发有限公司 基于关键词的图像描述方法和装置、设备、介质、程序
CN108304846A (zh) * 2017-09-11 2018-07-20 腾讯科技(深圳)有限公司 图像识别方法、装置及存储介质
CN108305296A (zh) * 2017-08-30 2018-07-20 深圳市腾讯计算机系统有限公司 图像描述生成方法、模型训练方法、设备和存储介质
CN108399619A (zh) * 2017-12-22 2018-08-14 联想(北京)有限公司 医疗诊断的系统及装置
WO2018170671A1 (en) * 2017-03-20 2018-09-27 Intel Corporation Topic-guided model for image captioning system
WO2018184195A1 (en) * 2017-04-07 2018-10-11 Intel Corporation Joint training of neural networks using multi-scale hard example mining
CN108681541A (zh) * 2018-01-17 2018-10-19 百度在线网络技术(北京)有限公司 图片搜索方法、装置及计算机设备
CN108734183A (zh) * 2017-04-14 2018-11-02 清华大学 检查方法和检查设备
CN108764141A (zh) * 2018-05-25 2018-11-06 广州虎牙信息科技有限公司 一种游戏场景描述方法、装置、设备及其存储介质
CN108875494A (zh) * 2017-10-17 2018-11-23 北京旷视科技有限公司 视频结构化方法、装置、系统及存储介质
CN109558512A (zh) * 2019-01-24 2019-04-02 广州荔支网络技术有限公司 一种基于音频的个性化推荐方法、装置和移动终端
CN109597919A (zh) * 2018-10-18 2019-04-09 中国科学院计算机网络信息中心 一种融合图数据库和人工智能算法的数据管理方法及系统
CN109635135A (zh) * 2018-11-30 2019-04-16 Oppo广东移动通信有限公司 图像索引生成方法、装置、终端及存储介质
CN109919166A (zh) * 2017-12-12 2019-06-21 杭州海康威视数字技术股份有限公司 获取属性的分类信息的方法和装置
CN109934077A (zh) * 2017-12-19 2019-06-25 杭州海康威视数字技术股份有限公司 一种图像识别方法和电子设备
CN109931506A (zh) * 2019-03-14 2019-06-25 三川智慧科技股份有限公司 管道泄露检测方法及装置
CN110022397A (zh) * 2018-01-10 2019-07-16 广东欧珀移动通信有限公司 图像处理方法、装置、存储介质及电子设备
CN110070512A (zh) * 2019-04-30 2019-07-30 秒针信息技术有限公司 图片修饰的方法及装置
CN110519636A (zh) * 2019-09-04 2019-11-29 腾讯科技(深圳)有限公司 语音信息播放方法、装置、计算机设备及存储介质
WO2019232873A1 (zh) * 2018-06-04 2019-12-12 平安科技(深圳)有限公司 文字模型训练方法、文字识别方法、装置、设备及介质
WO2020073700A1 (zh) * 2018-10-08 2020-04-16 腾讯科技(深圳)有限公司 图像描述模型的训练方法、装置及存储介质
CN112149738A (zh) * 2020-09-24 2020-12-29 北京建筑大学 一种用于改善图像识别模型领域变换现象的方法
CN112149738B (zh) * 2020-09-24 2021-04-27 北京建筑大学 一种用于改善图像识别模型领域变换现象的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182735A (zh) * 2014-08-18 2014-12-03 厦门美图之家科技有限公司 训练优化的基于卷积神经网络的色情图像或视频检测方法
CN104881681A (zh) * 2015-05-22 2015-09-02 浙江大学 基于混合图模型的图像序列类别标注方法
CN105512220A (zh) * 2015-11-30 2016-04-20 小米科技有限责任公司 图像页面输出方法及装置
CN105654127A (zh) * 2015-12-30 2016-06-08 成都数联铭品科技有限公司 基于端到端的图片文字序列连续识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182735A (zh) * 2014-08-18 2014-12-03 厦门美图之家科技有限公司 训练优化的基于卷积神经网络的色情图像或视频检测方法
CN104881681A (zh) * 2015-05-22 2015-09-02 浙江大学 基于混合图模型的图像序列类别标注方法
CN105512220A (zh) * 2015-11-30 2016-04-20 小米科技有限责任公司 图像页面输出方法及装置
CN105654127A (zh) * 2015-12-30 2016-06-08 成都数联铭品科技有限公司 基于端到端的图片文字序列连续识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ORIOL VINYALS 等: "Show and Tell: A Neural Image Caption Generator", 《COMPUTER VISION AND PATTERN RECOGNITION》 *
QI WU 等: "What Value Do Explicit High Level Concepts Have in Vision to Language Problems?", 《COMPUTER VISION AND PATTERN RECOGNITION》 *
朱明,武妍: "基于深度网络的图像处理的研究", 《图像与多媒体技术》 *
高莹莹,朱维彬: "深层神经网络中间层可见化建模", 《自动化学报》 *

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018170671A1 (en) * 2017-03-20 2018-09-27 Intel Corporation Topic-guided model for image captioning system
WO2018184195A1 (en) * 2017-04-07 2018-10-11 Intel Corporation Joint training of neural networks using multi-scale hard example mining
CN108734183A (zh) * 2017-04-14 2018-11-02 清华大学 检查方法和检查设备
CN107123027A (zh) * 2017-04-28 2017-09-01 广东工业大学 一种基于深度学习的化妆品推荐方法及系统
CN107145910A (zh) * 2017-05-08 2017-09-08 京东方科技集团股份有限公司 医学影像的表现生成系统、其训练方法及表现生成方法
CN108228686B (zh) * 2017-06-15 2021-03-23 北京市商汤科技开发有限公司 用于实现图文匹配的方法、装置和电子设备
CN108228686A (zh) * 2017-06-15 2018-06-29 北京市商汤科技开发有限公司 用于实现图文匹配的方法、装置和电子设备
CN107330392A (zh) * 2017-06-26 2017-11-07 司马大大(北京)智能系统有限公司 视频场景标注装置与方法
CN108305296A (zh) * 2017-08-30 2018-07-20 深圳市腾讯计算机系统有限公司 图像描述生成方法、模型训练方法、设备和存储介质
US10956771B2 (en) 2017-09-11 2021-03-23 Tencent Technology (Shenzhen) Company Limited Image recognition method, terminal, and storage medium
WO2019047971A1 (zh) * 2017-09-11 2019-03-14 腾讯科技(深圳)有限公司 图像识别方法、终端及存储介质
CN108304846A (zh) * 2017-09-11 2018-07-20 腾讯科技(深圳)有限公司 图像识别方法、装置及存储介质
CN107563351A (zh) * 2017-09-22 2018-01-09 杰峯信息科技(中山)有限公司 一种基于自然语言处理的图像识别方法
CN107908641A (zh) * 2017-09-27 2018-04-13 百度在线网络技术(北京)有限公司 一种获取图片标注数据的方法和系统
CN107908641B (zh) * 2017-09-27 2021-03-19 百度在线网络技术(北京)有限公司 一种获取图片标注数据的方法和系统
CN108875494A (zh) * 2017-10-17 2018-11-23 北京旷视科技有限公司 视频结构化方法、装置、系统及存储介质
CN107958415A (zh) * 2017-10-31 2018-04-24 阿里巴巴集团控股有限公司 证券信息播报方法及装置
CN109919166B (zh) * 2017-12-12 2021-04-09 杭州海康威视数字技术股份有限公司 获取属性的分类信息的方法和装置
CN109919166A (zh) * 2017-12-12 2019-06-21 杭州海康威视数字技术股份有限公司 获取属性的分类信息的方法和装置
CN107944447A (zh) * 2017-12-15 2018-04-20 北京小米移动软件有限公司 图像分类方法及装置
CN107944447B (zh) * 2017-12-15 2020-09-15 北京小米移动软件有限公司 图像分类方法及装置
WO2019119919A1 (zh) * 2017-12-19 2019-06-27 杭州海康威视数字技术股份有限公司 一种图像识别方法和电子设备
CN109934077A (zh) * 2017-12-19 2019-06-25 杭州海康威视数字技术股份有限公司 一种图像识别方法和电子设备
CN108399619A (zh) * 2017-12-22 2018-08-14 联想(北京)有限公司 医疗诊断的系统及装置
CN108229379A (zh) * 2017-12-29 2018-06-29 广东欧珀移动通信有限公司 图像识别方法、装置、计算机设备和存储介质
CN110022397A (zh) * 2018-01-10 2019-07-16 广东欧珀移动通信有限公司 图像处理方法、装置、存储介质及电子设备
CN110022397B (zh) * 2018-01-10 2021-02-19 Oppo广东移动通信有限公司 图像处理方法、装置、存储介质及电子设备
CN108268629A (zh) * 2018-01-15 2018-07-10 北京市商汤科技开发有限公司 基于关键词的图像描述方法和装置、设备、介质、程序
CN108681541A (zh) * 2018-01-17 2018-10-19 百度在线网络技术(北京)有限公司 图片搜索方法、装置及计算机设备
CN108230413A (zh) * 2018-01-23 2018-06-29 北京市商汤科技开发有限公司 图像描述方法和装置、电子设备、计算机存储介质、程序
CN108764141A (zh) * 2018-05-25 2018-11-06 广州虎牙信息科技有限公司 一种游戏场景描述方法、装置、设备及其存储介质
WO2019232873A1 (zh) * 2018-06-04 2019-12-12 平安科技(深圳)有限公司 文字模型训练方法、文字识别方法、装置、设备及介质
WO2020073700A1 (zh) * 2018-10-08 2020-04-16 腾讯科技(深圳)有限公司 图像描述模型的训练方法、装置及存储介质
CN109597919A (zh) * 2018-10-18 2019-04-09 中国科学院计算机网络信息中心 一种融合图数据库和人工智能算法的数据管理方法及系统
WO2020108234A1 (zh) * 2018-11-30 2020-06-04 Oppo广东移动通信有限公司 图像索引生成方法、图像搜索方法、装置、终端及介质
CN109635135A (zh) * 2018-11-30 2019-04-16 Oppo广东移动通信有限公司 图像索引生成方法、装置、终端及存储介质
CN109558512A (zh) * 2019-01-24 2019-04-02 广州荔支网络技术有限公司 一种基于音频的个性化推荐方法、装置和移动终端
CN109931506A (zh) * 2019-03-14 2019-06-25 三川智慧科技股份有限公司 管道泄露检测方法及装置
CN110070512A (zh) * 2019-04-30 2019-07-30 秒针信息技术有限公司 图片修饰的方法及装置
CN110519636A (zh) * 2019-09-04 2019-11-29 腾讯科技(深圳)有限公司 语音信息播放方法、装置、计算机设备及存储介质
CN112149738B (zh) * 2020-09-24 2021-04-27 北京建筑大学 一种用于改善图像识别模型领域变换现象的方法
CN112149738A (zh) * 2020-09-24 2020-12-29 北京建筑大学 一种用于改善图像识别模型领域变换现象的方法

Similar Documents

Publication Publication Date Title
CN106202330B (zh) 垃圾信息的判断方法及装置
CN105320428B (zh) 用于提供图像的方法和设备
CN104383674B (zh) 用于智能穿戴设备的计数方法、装置及智能穿戴设备
CN104092936B (zh) 自动对焦方法及装置
US10951813B2 (en) Method and system for providing recommendation information related to photography
US10152207B2 (en) Method and device for changing emoticons in a chat interface
CN103038765B (zh) 用于适配情境模型的方法和装置
US20150371114A1 (en) Classifying and annotating images based on user context
CN105426857B (zh) 人脸识别模型训练方法和装置
JP6574937B2 (ja) 通信システム、制御方法、および記憶媒体
CN104572905A (zh) 照片索引创建方法、照片搜索方法及装置
CN105631408B (zh) 基于视频的面孔相册处理方法和装置
CN105404863B (zh) 人物特征识别方法及系统
CN107820020A (zh) 拍摄参数的调整方法、装置、存储介质及移动终端
CN104808794B (zh) 一种唇语输入方法和系统
CN106295499B (zh) 年龄估计方法及装置
CN107105314A (zh) 视频播放方法及装置
US20170161582A1 (en) Image processing method, device and medium
CN104298481B (zh) 用于显示内容的方法及其电子设备
CN105608425B (zh) 对照片进行分类存储的方法及装置
CN103955481B (zh) 图片显示方法和装置
CN103140862B (zh) 用户界面系统及其操作方法
CN104408402B (zh) 人脸识别方法及装置
CN105389304B (zh) 事件提取方法及装置
CN104077029B (zh) 一种选座的提示方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170222