CN107766853B - 一种图像的文本信息的生成、显示方法及电子设备 - Google Patents

一种图像的文本信息的生成、显示方法及电子设备 Download PDF

Info

Publication number
CN107766853B
CN107766853B CN201610675750.8A CN201610675750A CN107766853B CN 107766853 B CN107766853 B CN 107766853B CN 201610675750 A CN201610675750 A CN 201610675750A CN 107766853 B CN107766853 B CN 107766853B
Authority
CN
China
Prior art keywords
vocabulary
target image
preset
image
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610675750.8A
Other languages
English (en)
Other versions
CN107766853A (zh
Inventor
赵小伟
孙佰贵
华先胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610675750.8A priority Critical patent/CN107766853B/zh
Publication of CN107766853A publication Critical patent/CN107766853A/zh
Application granted granted Critical
Publication of CN107766853B publication Critical patent/CN107766853B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种图像的文本信息的生成、显示方法及电子设备,其中,所述生成方法包括:获取目标图像的表征数据;其中所述表征数据表征所述目标图像的内容特征;根据所述表征数据以及当前限制词汇进行词汇预测,得到当前预测词汇;当所述当前预测词汇与预设词汇相匹配时,将针对所述目标图像进行词汇预测得到的结果集中的词汇作为所述目标图像的文本信息;其中,所述结果集中包括至少一个词汇。本申请实施方式提供的一种图像的文本信息的生成、显示方法及电子设备,能够为图像生成较为准确的文本信息,以减少的用户的工作量。

Description

一种图像的文本信息的生成、显示方法及电子设备
技术领域
本申请涉及数据处理技术领域,特别涉及一种图像的文本信息的生成、显示方法及电子设备。
背景技术
随着移动互联网的不断发展,网上的信息呈爆炸式增长。目前,对于文本信息,人们可以根据文本信息中描述的词汇来确定文本信息的含义。然而,确定图像信息中包含的信息的含义却没有这么方便。目前主流的一种方法是为图像分配对应的文本信息,从而可以根据分配的文本信息来理解图像中信息的含义。
例如,在产品销售的网络平台中,商家通常在产品销售的页面中添加产品图像以及描述该产品图像的文本标题,以向客户介绍图像中的产品的相关信息。由于产品图像的文本标题往往都是商家在发布产品销售的页面时自主编辑的,这样当产品类目增多时,商家在发布产品信息时将会耗费大量的时间和精力来编辑各个图像对应的文本信息。
鉴于此,现有技术中可以通过光学字符识别(Optical Character Recognition,OCR)方法将图像转换为对应的文本信息。OCR可以识别出图像中的文字信息,从而可以将识别出的文字描述信息确定为所述图像对应的文本信息。然而,对于大多数图像而言,图像中是不存在文字描述信息的,因此OCR方法在使用时有很大的限制。
为此,现有技术中进一步提出了多标记图像分类(Multi-label ImageClassification)的方法。该方法是一种机器学习方法,可以对输入图像进行特征提取,然后输出多个概率值,每个概率值与一个描述词汇相对应。通过设置概率阈值,从而可以筛选出能够描述该图像的多个描述词汇。然而这种方法得出的描述词汇随机性较大,往往无法准确地对输入图像的特征进行描述,从而导致在生成描述词汇之后,商家还是需要花费大量的时间和精力对这些描述词汇进行调整。
应该注意,上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
发明内容
本申请实施方式的目的在于提供一种图像的文本信息的生成、显示方法及电子设备,能够为图像生成较为准确的文本信息,以减少的用户的工作量。
为实现上述目的,本申请一方面提供一种图像的文本信息的生成方法,所述方法包括:获取目标图像的表征数据;其中所述表征数据表征所述目标图像的内容特征;根据所述表征数据以及当前限制词汇进行词汇预测,得到当前预测词汇;当所述当前预测词汇与预设词汇相匹配时,将针对所述目标图像进行词汇预测得到的结果集中的词汇作为所述目标图像的文本信息;其中,所述结果集中包括至少一个词汇。
为实现上述目的,本申请另一方面提供一种电子设备,所述电子设备包括处理器和存储器,其中:所述存储器,其用于存储目标图像的表征数据以及针对所述目标图像进行词汇预测得到的结果集,其中,所述表征数据表征所述目标图像的内容特征,所述结果集中包括至少一个词汇;所述处理器,其用于从所述存储器中获取所述目标图像的表征数据并根据所述表征数据以及当前限制词汇进行词汇预测,得到当前预测词汇;当所述当前预测词汇与预设词汇相匹配时,将针对所述目标图像进行词汇预测得到的结果集中的词汇作为所述目标图像的文本信息;其中,所述结果集中包括至少一个词汇。
为实现上述目的,本申请另一方面提供一种图像文本信息的显示方法,所述方法包括:客户端将目标图像的图像信息发送给预设服务器;接收并显示所述预设服务器针对所述图像信息反馈的文本信息;其中,所述文本信息为所述预设服务器采用如下方式生成:获取所述目标图像的表征数据;其中,所述表征数据表征所述目标图像的内容特征;根据所述表征数据以及当前限制词汇进行词汇预测,得到当前预测词汇;当所述当前预测词汇与预设词汇相匹配时,将针对所述目标图像进行词汇预测得到的结果集中的词汇作为所述目标图像的文本信息;其中,所述结果集中包括至少一个词汇。
为实现上述目的,本申请另一方面提供一种电子设备,所述电子设备包括处理器、网络通信模块和显示器,其中:所述网络通信模块,其用于进行网络数据通信;所述处理器,其用于控制所述网络通信模块将目标图像的图像信息发送给预设服务器并控制所述网络通信模块接收所述预设服务器针对所述图像信息反馈的文本信息;其中,所述文本信息为所述预设服务器采用如下方式生成:获取所述目标图像的表征数据;其中,所述表征数据表征所述目标图像的内容特征;根据所述表征数据以及当前限制词汇进行词汇预测,得到当前预测词汇;当所述当前预测词汇与预设词汇相匹配时,将针对所述目标图像进行词汇预测得到的结果集中的词汇作为所述目标图像的文本信息;其中,所述结果集中包括至少一个词汇;所述显示器,其用于显示所述预设服务器针对所述图像信息反馈的文本信息。
为实现上述目的,本申请另一方面提供一种图像的文本信息的生成方法,所述方法包括:获取目标图像的表征数据;其中,所述表征数据表征所述目标图像的内容特征;根据所述表征数据以及当前限制词汇进行词汇预测,得到当前预测词汇;将所述当前预测词汇作为下一次词汇预测的限制词汇,重复进行词汇预测至当前预测词汇与预设词汇相匹配;将针对所述目标图像进行词汇预测得到的结果集中的词汇作为所述目标图像的文本信息;其中,所述结果集中包括至少一个词汇。
为实现上述目的,本申请另一方面提供一种电子设备,所述电子设备包括处理器和存储器,其中:所述存储器,其用于存储目标图像的表征数据和针对所述目标图像进行词汇预测得到的结果集,其中,所述表征数据表征所述目标图像的内容特征,所述结果集中包括至少一个词汇;所述处理器,其用于从所述存储器中获取所述表征数据并根据所述表征数据以及当前限制词汇进行词汇预测,得到当前预测词汇;将所述当前预测词汇作为下一次词汇预测的限制词汇,重复进行词汇预测至当前预测词汇与预设词汇相匹配;将针对所述目标图像进行词汇预测得到的结果集中的词汇作为所述目标图像的文本信息。
由以上本申请实施方式提供的技术方案可见,本申请通过将目标图像的表征数据与当前限制词汇共同作为词汇预测的基础,使得生成的当前预测词汇受所述当前限制词汇以及表征数据这两者的共同约束,从而保证生成的当前预测词汇能够正确反映目标图像的特征并且能够使得生成的当前预测词汇与当前限制词汇保持依赖关系。这样,通过表征数据和当前预测词汇之间的相互约束,可以使得生成的文本信息能够更加准确地描述目标图像的特征,从而可以减少用户为了调整生成的文本信息而投入的精力和时间。
参照后文的说明和附图,详细公开了本申请的特定实施方式,指明了本申请的原理可以被采用的方式。应该理解,本申请的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内,本申请的实施方式包括许多改变、修改和等同。
针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。
附图说明
所包括的附图用来提供对本申请实施方式的进一步的理解,其构成了说明书的一部分,用于例示本申请的实施方式,并与文字描述一起来阐释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本申请实施方式提供的一种图像的文本信息的生成方法流程图;
图2为本申请实施方式提供的图像特征数据处理示意模块图;
图3为本申请实施方式中预设词汇映射关系的建立方法流程图;
图4为本申请实施方式中一种电子设备的结构示意图;
图5为本申请实施方式中一种图像的文本信息的显示方法流程图;
图6为本申请另一个实施方式中一种电子设备的结构示意图;
图7为本申请另一个实施方式中一种图像的文本信息的生成方法流程图;
图8为本申请另一个实施方式中一种电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施方式,都应当属于本申请保护的范围。
图1为本申请实施方式提供的一种图像的文本信息的生成方法流程图。图2为本申请实施方式提供的图像特征数据处理示意模块图。本申请提供的一种图像的文本信息的生成方法,其执行的主体可以是客户端或服务器。所述客户端可以是用户使用的移动智能电话、计算机(包括笔记本电脑,台式电脑)、平板电脑、个人数字助理(PDA)或者智能可穿戴设备等硬件设备。所述客户端也可以是运行于上述硬件设备中的软件,例如淘宝客户端、聚划算客户端等。所述服务器可以是执行由图像到文本信息转换过程的主体,所述服务器可以是具备数据处理功能的计算机。客户端可以向服务器发送待处理的图像,服务器在处理完成之后,可以将生成的文本信息发送至客户端。请参阅图1和图2,所述方法可以包括以下步骤。
步骤S11:获取目标图像的表征数据;其中,所述表征数据表征所述目标图像的内容特征。
在本实施方式中,获取目标图像的表征数据的主体可以是服务器。所述目标图像可以是商家预先拍摄好并且发送至所述服务器中的。在本实施方式中,当获取到所述目标图像之后,服务器可以提取所述目标图像的表征数据。所述表征数据例如可以通过卷积神经网络(Convolutional Neural Network,CNN)算法对所述目标图像处理后得到的数据。在本实施方式中,所述CNN算法可以针对目标图像中各个像素点的像素值,计算得到与所述目标图像对应的图像特征向量。该图像特征向量例如可以为1024维的向量。该目标图像可以通过图像特征向量中每个元素的值以及不同元素之间的排列规则来共同确定。当然,本申请实施方式并不局限于卷积神经网络算法,其还可以采用Voronio棋盘格特征法、马尔可夫随机场模型法或者Gibbs随机场模型法来获取目标图像的表征数据。
在本实施方式中,所述目标图像的表征数据也可以是服务器根据历史处理信息获取的。例如,当服务器接收到客户端发来的目标图像时,可以从历史处理信息中查询是否已经处理过相同的目标图像。当查询到历史处理信息中具有该目标图像时,便可以直接获取与该目标图像相对应的表征数据。该表征数据是服务器之前已经通过CNN算法对该目标图像进行处理后得到的。
在本实施方式中,对于不同的目标图像,其对应的表征数据往往是不同的,因此所述表征数据可以唯一标识所述目标图像。此外,由于所述表征数据可以根据目标图像中各个像素点的像素值生成,因此所述表征数据能表征所述目标图像的内容特征。所述内容特征可以是所述目标图像区别于其他图像的特征。例如,在目标图像中描绘了条纹的罩衫,在该罩衫的左肩有一个蓝色的蝴蝶结,那么该目标图像的表征数据中便可以通过数字化的方式表征左肩蓝色蝴蝶结的内容特征。
在本实施方式中,获取目标图像的表征数据的方式可以为:按照预设路径进行读取所述表征数据或者接收其它设备发来的所述表征数据。具体地,所述表征数据可以按照预设路径存储于存储器中,这样,所述服务器便可以按照所述预设路径,对存储于所述预设路径下的表征数据进行读取。此外,所述表征数据还可以是客户端根据目标图像的图像信息进行处理得到的。所述客户端在处理得到所述表征数据之后,可以将所述表征数据发送至所述服务器。这样,所述服务器便可以通过接收所述表征数据的方式来获取所述表征数据。
在本实施方式中,所述服务器可以包括具有数据信息处理功能的硬件设备和驱动该硬件设备工作所需必要的软件。所述服务器可以提供有预定端口,通过该预定端口可以向客户端发送描述信息。例如,所述服务器可以基于HTTP、TCP/IP或FTP等网络协议以及网络通信模块与客户端进行网络数据交互。
在本实施方式中,所述客户端可以包括移动智能电话、计算机(包括笔记本电脑,台式电脑,服务器)、平板电子设备、个人数字助理(PDA)或者智能可穿戴设备。当然,客户端也可以是运行于上述硬件设备上的软体程序。
步骤S13:根据所述表征数据以及当前限制词汇进行词汇预测,得到当前预测词汇。
在本实施方式中,所述当前限制词汇可以是与所述目标图像相关的某个词汇。例如,对于一张蓝色立领风衣的图像而言,所述当前限制词汇可以是蓝色,也可以是立领,也可以是风衣。需要说明的是,所述当前限制词汇还可以是一个空词汇。所述空词汇不具备实际意义,其可能只是一个按照预设编写规则进行编写的字符。作为空词汇的当前限制词汇例如可以是一个表征文本信息开头的开始词汇。当将所述开始词汇作为当前限制词汇时,实际上并没有对所述目标图像的表征数据进行限制,这样,根据所述表征数据和开始词汇,便可以得到能够描述该目标图像的第一个描述词汇。
在本实施方式中,可以设置一个预设词汇映射关系,该预设词汇映射关系可以将所述表征数据以及当前限制词汇的组合映射为一个当前预测词汇。对于同一个表征数据而言,如果当前限制词汇不同,那么经过所述预设词汇映射关系得到的当前预测词汇也可以不同。因此,在本实施方式中,可以将所述表征数据以及所述当前限制词汇共同作为词汇预测的基础。一旦表征数据或/和当前限制词汇发生改变时,通过所述预设词汇映射关系得到的当前预测词汇也可以改变。
在本实施方式中,所述预设词汇映射关系能够对所述表征数据和当前限制词汇进行处理,从而得到对应的当前预测词汇。所述当前预测词汇可以为与所述图像相关的词汇。例如,对于一张蓝色立领风衣的图像而言,假设当前限制词汇为空词汇,那么利用所述预设词汇映射关系对表征数据和空词汇进行处理后,得到的当前预测词汇可以为“蓝色”。接着,假设将“蓝色”作为当前限制词汇,那么通过所述预设词汇映射关系处理后,得到的当前预测词汇便可以为“立领”。
由此可见,在本实施方式中,针对同一个表征数据而言,如果分配给该图像的当前限制词汇不同,那么经过所述预设词汇映射关系得到的当前预测词汇也可以不同。
步骤S15:当所述当前预测词汇与预设词汇相匹配时,将针对所述目标图像进行词汇预测得到的结果集中的词汇作为所述目标图像的文本信息;其中,所述结果集中包括至少一个词汇。
在本实施方式中,当所述当前预测词汇与预设词汇相匹配时,则表明当前限制词汇就是待处理图像对应的最后一个具备实际意义的描述词汇。所述预设词汇可以是不具备实际意义,而是表征结尾的空词汇。例如,对于卫衣图像而言,当将“卫衣”作为当前限制词汇时,根据“卫衣”与卫衣图像的表征数据预测得到的当前预测词汇就可以是表征结尾的空词汇。在这种情况下,说明与所述卫衣图像相关的预测词汇均已确定。
在本实施方式中,每当生成所述表征数据的当前预测词汇后,均可以将生成的预测词汇加入结果集。那么当所述当前预测词汇与预设词汇相匹配时,便可以获取所述预设词汇映射关系针对所述目标图像的结果集,从而可以将所述结果集中的词汇作为所述目标图像的文本信息。
在本实施方式中,所述结果集中的词汇可以按照各个词汇生成的时间顺序进行排列。例如,一个卫衣产品的图像对应的结果集中的词汇可以按照生成的时间顺序进行排列,那么结果集中的词汇依次可以为“白色”、“连帽”、“套头”、“卫衣”,那么当前限制词汇便可以为“卫衣”,根据“卫衣”和该产品图像的表征数据可以预测得到表征结尾的空词汇。此时,便可以将所述结果集中的词汇按照生成时间的排列组合作为该卫衣产品图像的文本信息,也就是“白色连帽套头卫衣”。
在本实施方式中,所述结果集中的词汇还可以根据不同的属性名来进行排序。具体地,所述属性名可以是表征所述词汇类别的名词,例如所述属性名可以是材质、适用人群、款式、领型、腰型、袖长、衣长、产品名等中的至少一个。所述属性名可以根据实际情况确定,不限于上述例举的这些属性名。这样,所述结果集中的每个词汇均可以对应各自的属性名。例如,“亚麻”对应的是材质,“男士”对应的是适用人群。在本实施方式中,可以预先规定属性名的排序规则,这样便可以按照预先确定的属性名排序规则,对所述结果集中的词汇进行排序,从而得到与所述目标图像相对应的文本信息。
在本实施方式中,所述当前预测词汇与预设词汇相同时,则可以表明所述当前预测词汇与预设词汇相匹配。在本实施方式中,所述预设词汇可以是表征结尾的并且不具备实际意义的空词汇。当所述当前预测词汇与所述预设词汇不同,但所述当前预测词汇与所述预设词汇之间满足预定算法对应关系时,也可以表明所述当前预测词汇与预设词汇相匹配。在这种情况下,尽管所述当前预测词汇与预设词汇的表现形式不同,但实际这两个词汇均是表征结尾的词汇,这两个词汇之间满足预定算法对应关系。那么在这种情况下,所述当前预测词汇与所述预设词汇也是相匹配的。
在一个具体的应用示例中,淘宝平台的商家在发布一款产品时,往往需要为该产品添加附图和相应的文字描述信息。利用本申请上述实施方式中描述的方案,商家可以将产品的附图上传至淘宝平台的后台业务服务器。所述后台业务服务器接收到该附图之后,可以通过CNN算法提取该附图的表征数据。然后可以根据预设词汇映射关系,将提取得的表征数据映射为第一个当前预测词汇。然后可以根据所述预设词汇映射关系,将第一个当前预测词汇和所述表征数据映射为第二个当前预测词汇,然后以此类推,直至预测得到的当前预测词汇是表征结尾的空词汇为止。在结束预测之后,可以按照生成当前预测词汇从先到后的顺序进行排列组合,从而可以生成所述附图的文本信息。在生成了所述文本信息之后,便可以将该文本信息反馈至商家的客户端,从而可以在商家的客户端页面上进行展示。
在另一个具体的应用示例中,当用户在网上浏览到心仪的一款产品的图像后,想从网购平台购买该产品。然而由于该产品仅仅只有一张图像,而没有对应的文字描述,因此用户在搜索时并不知道搜索的关键词是什么,从而无法准确地从网购平台搜索到对应的产品。在这种情况下,可以通过本申请上述实施方式中描述的方案,用户可以将该产品的图像上传至网购平台的后台业务服务器。所述后台业务服务器接收到该图像之后,可以通过CNN算法提取该图像的表征数据。然后可以根据预设词汇映射关系,将提取得的表征数据映射为第一个当前预测词汇。然后可以根据所述预设词汇映射关系,将第一个当前预测词汇和所述表征数据映射为第二个当前预测词汇,然后以此类推,直至预测得到的当前预测词汇是表征结尾的空词汇为止。在结束预测之后,可以按照生成当前预测词汇从先到后的顺序进行排列组合,从而可以生成所述图像的文本信息。在生成了所述文本信息之后,便可以将该文本信息反馈至用户的终端设备处,这样,用户便可以根据接收到的文本信息在网购平台进行搜索。此外,在后台业务服务器生成了所述文本信息之后,还可以直接利用该文本信息进行搜索,将符合该文本信息的产品信息发送至用户的终端设备处,从而可以在用户的终端设备上展示搜索得到的产品信息。
在本申请一个实施方式中,当所述当前预测词汇与预设词汇不相匹配时,则表明当前预测词汇并非表征结尾的空词汇,而是具备实际意义的描述词汇。在这种情况下,可以将所述当前预测词汇记入所述结果集,并将所述当前预测词汇作为下一次词汇预测的当前限制词汇。例如,对于卫衣图像而言,第一次的当前限制词汇可以为表征开头的空词汇,得到的第一个当前预测词汇为“白色”;后续则将“白色”作为当前限制词汇,得到的第二个当前预测词汇为“连帽”。以此类推,得到的第三个当前预测词汇为“套头”,第四个当前预测词汇为“卫衣”。这样,便可以将得到的具备实际意义的描述词汇加入结果集。
在本申请一个实施方式中,在根据所述表征数据以及当前限制词汇进行词汇预测,得到当前预测词汇的步骤中,可以包括:按照预设词汇映射关系,将所述表征数据和当前限制词汇的集合映射为当前预测词汇。
在本申请一个实施方式中,可以通过对样本训练集进行机器学习的方法来建立所述预设词汇映射关系。请参阅图3,在本申请一个实施方式中,所述预设词汇映射关系可以通过以下子步骤来建立。
步骤S31:获取样本训练集,所述样本训练集中包括至少一个样本图文关联组,所述样本图文关联组中包括相关联的样本图像与样本描述词汇集,所述样本描述词汇集中的描述词汇按照预设规则排列。
在本实施方式中,当一个产品发布时,其往往具备一张产品图像以及与该产品图像相对应的产品标题。在产品标题中可以详细描述该产品的信息。例如,一件卫衣的图像对应的产品标题可以为“2016春季新品男士纯白色套头连帽卫衣”。在本实施方式中,可以获取同一产品类目下的产品图像及其对应的产品标题。其中,所述产品图像便可以为样本图像,而所述产品标题便可以为所述样本图像的描述语句。这样便可以获取到每个样本图像以及所述每个样本图像的描述语句。
在本实施方式中,由于所述描述语句通常是由发布产品的商家拟定的,因此根据不同的语言习惯,不同描述语句的描述风格以及词序的排列可能会不同。为了便于对获取的样本图像和描述语句进行统一处理,可以按照每个所述描述语句中词汇的词性,将每个所述描述语句拆分为预设数量的词汇。所述词汇的词性例如可以是形容词、名词、副词、动词等。例如对于上述的“2016春季新品男士纯白色套头连帽卫衣”,其可以被拆分为“2016”、“春季”、“新品”、“男士”、“纯白色”、“套头”、“连帽”、“卫衣”这些词汇。这样,拆分出的预设数量的词汇便可以形成与所述样本图像对应的词汇组。在拆分得到的词汇组中,并不是所有的词汇均可以准确地描述产品图像的特点,例如“2016”和“新品”这两个词便无法描述产品图像的特点。因此,在本实施方式中,可以对拆分得到的词汇组进行筛选,以筛选出能够准确描述所述产品图像特点的词汇。
在本实施方式中,鉴于能够描述所述产品图像的词汇有很多个。例如对于上述的卫衣而言,其对应的描述词汇可以有“男士”、“纯白色”、“套头”、“连帽”、“卫衣”等,而用户关心的可能是卫衣特有的特征。例如“套头”、“连帽”,对于“纯白色”这种颜色描述的词可能关注度不是特别高。那么在本实施方式中,当描述所述产品图像的词汇有多个时,可以根据各个词汇相对于该产品的重要程度来对各个词汇进行排序,将用户更加关注的词汇往前排列。具体地,在本实施方式中,可以确定所述预设数量的词汇中各个词汇对应的优先级参数。所述优先级参数可以通过互信息算法或者TFIDF算法来计算。
通过互信息算法或者TFIDF算法来计算意义在于,假设在卫衣类目下的产品标题中,包含“连帽”的产品标题的数量为100条,在卫衣类目下的产品标题的总数量为120条。而在所有类目下的产品标题中,包含“连帽”的产品标题的数量为1000条,而所有类目下的产品标题的总数量为20000条,这样的数据表明,“连帽”这个词在卫衣产品中的关注度比较高,但是在整个产品类目下的关注度不太高(原因在于其他产品可能并没有涉及连帽),也就是说,“连帽”这一特征相对于卫衣而言是比较重要的特征,那么计算的优先级参数也较大。而对于“春季”这一词汇,尽管其在卫衣这一产品的标题中出现的次数也相当高。例如120条标题中110条均提到了“春季”,但由于“春季”这一特征在所有产品类目中出现的次数也非常高。例如20000条产品标题中出现了18000条,那么其对应的优先级参数就较低,并且会远远小于“连帽”的优先级参数。
这样,在确定了拆分的所述预设数量的词汇分别对应的优先级参数后,便可以根据预设参数阈值,将优先级参数大于或者等于预设参数阈值的词汇确定为特征词汇。例如对于卫衣而言,可以将“连帽”、“套头”、“纯白色”、“卫衣”筛选出来。在筛选出至少一个特征词汇后,可以按照预设规则对所述至少一个特征词汇进行排序,得到所述样本图像对应的描述词汇集。例如,对于上述的卫衣图像而言,其对应的描述词汇集可以为“纯白色连帽套头卫衣”。
在本实施方式中,所述特征词汇可以与产品的某个属性相对应。例如,对于“卫衣”这个产品而言,其对应的属性可以有一个或者多个。例如,卫衣对应的属性可以有颜色、样式、适用人群等。对于每个属性而言,均可以有一个特征词汇与其相关联。这样,由于产品的属性往往有至少一个,因此所述特征词汇也往往可以有至少一个。在本实施方式中,由所述样本图像及其对应的描述词汇集可以形成样本图文关联组。这样,对于产品类目下的每一个产品均可以生成一组样板图文关联组,从而可以得到大量的样本图文关联组,从而构成所述样本训练集。
在本实施方式中,获取样本训练集的方式可以包括:从存储所述样本训练集的存储介质中读取或者接收其它设备发来的所述样本训练集。具体地,在存储介质中可以存储有多组样本图文关联组,这些样本图文关联组便可以组合成为所述样本训练集。每组样本图文关联组可以携带唯一的标识。通过指定的标识,从而可以从所述存储介质中读取与所述指定的标识相对应的样本图文关联组,从而可以将读取的样本图文关联组作为样本训练集。此外,所述样本训练集可以存储于其它设备中。在本实施方式中,可以向存储所述样本训练集的其它设备发送数据获取请求。这样,其它设备在接收到所述数据获取请求后,便可以发送所述样本训练集,从而可以通过接收数据的方式来获取所述样本训练集。
步骤S33:针对所述样本训练集中的每组样本图文关联组,所述预设词汇映射关系均满足:对于样本描述词汇集中任意相邻的第一描述词汇和第二描述词汇,所述预设词汇映射关系将所述样本图像的表征数据和所述第一描述词汇的集合映射为所述第二描述词,所述第一描述词汇位于所述第二描述词汇之前。
在本实施方式中,经过步骤S31中对产品标题的处理方式,最终可以得到按照预设规则排列的描述词汇集。本实施方式建立所述预设词汇映射关系的目的在于通过对产品图像进行处理,能够按顺序得到所述描述词汇集中的各个词汇。例如,对上述的卫衣图像进行第一次处理时,能够得到“纯白色”这个词汇。然后将“纯白色”这个词汇与所述卫衣图像组合在一起再次进行处理时,能够得到“连帽”这个词汇。以此类推,最终便可以按顺序得到“纯白色”、“连帽”、“套头”、“卫衣”这四个词。
在本实施方式中可以采用长短期记忆(Long-Short Term Memory,LSTM)的方法来对所述样本训练集中的样本图文关联组进行学习。在刚开始学习时,可以预先设置一个初始词汇映射关系,该初始词汇映射关系的输入对象可以是样本图文关联组中的样本图像的表征数据,输出对象可以是与该样本图像对应的各个词汇的概率值。例如,对于上述的卫衣图像的表征数据而言,根据所述初始词汇映射关系,可以得到如下所示的词汇概率组:
(0.1,0,0.2,0.5,0.8,0.16)
该词汇概率组中包含了6个概率值,而每个概率值均可以对应一个词汇。例如,概率值为0.1的可以对应“绿色”,概率值为0的可以对应“白色”,概率值为0.8的可以对应“黑色”。其中,概率值最高的就可以作为经过所述初始词汇映射关系得到的当前预测词汇。然而,由于所述初始词汇映射关系可能并不准确,从而导致得到的词汇概率组中的各个概率值与理论概率值相差较大。例如,上述的卫衣图像中的卫衣是白色,而经过所述初始词汇映射关系得到的概率值最高的词是“黑色”,这就表明所述初始词汇映射关系需要校正。
具体地,在本实施方式中,可以将计算得到的词汇概率组与理论概率组进行比较,从而得到一个误差值。并根据该误差值对所述初始词汇映射关系进行校正,使得再次处理后得到的词汇概率组能够与理论概率组一致。这种校正过程可能需要重复多次,直至所述误差值能够小于或者等于预设的误差阈值。
在对第一个词汇预测成功之后,可以将第一个词汇作为当前限制词汇,与所述样本图像的表征数据一起输入至经过校正的词汇映射关系中。例如,第一个预测的词汇为“白色”,那么可以将所述卫衣图像的表征数据和“白色”共同输入经过校正的词汇映射关系。这样便可以再次得到一个词汇概率组,然后便可以通过类似的方式继续对当前的词汇映射关系进行校正,直至得到的词汇概率组与理论的概率组相似或者一致。
这样,对于每一组样本图文关联组均进行上述的校正过程,当对所述样本训练集全部完成学习后,最终得到的词汇映射关系便可以为所述预设词汇映射关系。该预设词汇映射关系能够满足这样的条件:对于样本描述词汇集中任意相邻的第一描述词汇和第二描述词汇,所述预设词汇映射关系将所述样本图像的表征数据和所述第一描述词汇的集合映射为所述第二描述词,所述第一描述词汇位于所述第二描述词汇之前。
需要说明的是,每个样本描述词汇集中,除了包含具备实际意义的词汇外,还可以在开头和结尾各包含一个空词汇。位于开头的空词汇与位于结尾的空词汇在生成样本描述词汇集时可以不显性地表示出来。但在确定当前限制词汇时,可以将空词汇作为当前限制词汇。例如,在对样本图像第一次进行处理时,可以将表征开头的空词汇作为当前限制词汇,从而可以预测出与所述表征开头的空词汇相邻的第一个描述词汇。
这样,在对所述样本训练集完成学习后,便可以得到所述预设词汇映射关系。所述预设词汇映射关系可以将待处理的图像以及当前限制词汇作为当前约束条件,从而可以确定所述当前约束条件对应的当前预测词汇。
在本申请一个实施方式中,在获取样本图像以及所述样本图像的描述语句时,有时候同一个样本图像会对应不同的描述语句。而在这些不同的描述语句中,可能大部分都是相同,只有少数几个不相同。为了避免这少数几个不相同的描述语句带来的干扰,在本实施方式中可以将重复次数最多的描述语句确定为所述样本图像的描述语句,从而可以对同一个样本图像的描述语句进行统一,避免后续在对样本训练集进行学习时出现错误,这样便可以提高机器学习的效率。
在本申请一个实施方式中,在对所述至少一个特征词汇进行排序时,可以按照各个特征词汇对应的属性名来进行排序。具体地,所述属性名可以是表征所述特征词汇类别的名词,例如所述属性名可以是材质、适用人群、款式、领型、腰型、袖长、衣长、产品名等中的至少一个。所述属性名可以根据实际情况确定,不限于上述例举的这些属性名。这样,便可以确定所述至少一个特征词汇中各个词汇分别对应的属性名。例如,“亚麻”对应的是材质,“男士”对应的是适用人群。在本实施方式中,可以预先规定属性名的排序规则,这样便可以按照预先确定的属性名排序规则,对所述至少一个特征词汇进行排序,从而得到所述样本描述词汇集。
在本申请一个实施方式中,所述当前限制词汇可以采用CBOW算法或者Skip-Gram算法或者GloVe算法,来转换为对应的词汇向量。这样便可以将图像的表征数据以及当前限制词汇的词汇向量输入所述预设词汇映射关系,以得到当前预测词汇的词汇向量。
在本实施方式中,根据所述预设词汇映射关系,可以确定表征数据和当前限制词汇对应的词汇概率组,所述词汇概率组中包括至少一个概率值,其中,每个概率值均与一个词汇相对应。在本实施方式中,可以将所述词汇概率组中最大的概率值对应的词汇向量确定为所述当前预测词汇向量。那么与所述当前预测词汇向量相对应的词汇便可以是所述当前预测词汇。
在本申请一个实施方式中,在将所述结果集中的词汇作为所述目标图像的文本信息的步骤中,可以包括:将所述结果集中的词汇按照预设排列规则的排列组合作为所述目标图像的文本信息。
在本实施方式中,所述按照预设排列规则可以是按照各个词汇生成的时间顺序进行排列。例如,一个卫衣产品的图像对应的结果集中的词汇可以按照生成的时间顺序进行排列,那么结果集中的词汇依次可以为“白色”、“连帽”、“套头”、“卫衣”,那么当前限制词汇便可以为“卫衣”,将“卫衣”和该产品图像的表征数据输入所述预设词汇映射关系后,可以得到表征结尾的空词汇。此时,便可以将所述历史预设词汇集中的词汇按照生成时间的排列组合作为该卫衣产品图像的文本信息,也就是“白色连帽套头卫衣”。
在本实施方式中,所述结果集中的词汇还可以根据不同的属性名来进行排序。具体地,所述属性名可以是表征所述词汇类别的名词,例如所述属性名可以是材质、适用人群、款式、领型、腰型、袖长、衣长、产品名等中的至少一个。所述属性名可以根据实际情况确定,不限于上述例举的这些属性名。这样,所述结果集中的每个词汇均可以对应各自的属性名。例如,“亚麻”对应的是材质,“男士”对应的是适用人群。在本实施方式中,可以预先规定属性名的排序规则,这样便可以按照预先确定的属性名排序规则,对所述结果集中的词汇进行排序,从而得到与所述目标图像相对应的文本信息。
在本申请一个实施方式中,可以将所述结果集中的词汇按照生成时间从先到后的排列组合作为所述目标图像的文本信息。例如,一个卫衣产品的图像对应的结果集中的词汇按照生成时间从先到后的顺序依次可以为“白色”、“连帽”、“套头”、“卫衣”,那么当前限制词汇便可以为“卫衣”,将“卫衣”和该产品图像的表征数据输入所述预设词汇映射关系后,可以得到表征结尾的空词汇。此时,便可以将所述历史预设词汇集中的词汇按照生成时间从先到后的排列组合作为该卫衣产品图像的文本信息,也就是“白色连帽套头卫衣”。
本申请还提供一种电子设备。请参阅图4,所述电子设备可以包括处理器100和存储器200。
所述存储器200,其用于存储目标图像的表征数据以及针对所述目标图像进行词汇预测得到的结果集,其中,所述表征数据表征所述目标图像的内容特征,所述结果集中包括至少一个词汇。
所述处理器100,其用于从所述存储器中获取所述目标图像的表征数据并根据所述表征数据以及当前限制词汇进行词汇预测,得到当前预测词汇;当所述当前预测词汇与预设词汇相匹配时,将针对所述目标图像进行词汇预测得到的结果集中的词汇作为所述目标图像的文本信息;其中,所述结果集中包括至少一个词汇。
在本实施方式中,所述存储器可以是用于保存信息的记忆设备。在数字系统中,能保存二进制数据的设备可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也可以为存储器,如RAM、FIFO等;在系统中,具有实物形式的存储设备也可以叫存储器,如内存条、TF卡等。
在本实施方式中,所述处理器可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本申请并不作限定。
上述实施方式公开的电子设备,其处理器100和存储器200实现的具体功能,可以与本申请图像的文本信息的生成方法实施方式相对照解释,可以实现本申请的文本信息的生成方法实施方式并达到方法实施方式的技术效果。
请参阅图5。本申请还提供一种应用于客户端一侧的图像的文本信息的显示方法。如图4所示,所述方法可以包括以下步骤。
客户端将目标图像的图像信息发送给预设服务器。
客户端接收并显示所述预设服务器针对所述图像信息反馈的文本信息;其中,所述文本信息为所述预设服务器采用如下方式生成:获取所述目标图像的表征数据;其中,所述表征数据表征所述目标图像的内容特征;根据所述表征数据以及当前限制词汇进行词汇预测,得到当前预测词汇;当所述当前预测词汇与预设词汇相匹配时,将针对所述目标图像进行词汇预测得到的结果集中的词汇作为所述目标图像的文本信息;其中,所述结果集中包括至少一个词汇。
在本实施方式中,所述目标图像可以是商家预先拍摄好并且发送至所述服务器中的。在本实施方式中,当获取到所述目标图像之后,服务器可以提取所述目标图像的表征数据。所述表征数据例如可以通过卷积神经网络(Convolutional Neural Network,CNN)算法对所述目标图像处理后得到的数据。在本实施方式中,所述CNN算法可以针对目标图像中各个像素点的像素值,计算得到与所述目标图像对应的图像特征向量。该图像特征向量例如可以为1024维的向量。该目标图像可以通过图像特征向量中每个元素的值以及不同元素之间的排列规则来共同确定。当然,本申请实施方式并不局限于卷积神经网络算法,其还可以采用Voronio棋盘格特征法、马尔可夫随机场模型法或者Gibbs随机场模型法来获取目标图像的表征数据。
在本实施方式中,所述目标图像的表征数据也可以是服务器根据历史处理信息获取的。例如,当服务器接收到客户端发来的目标图像时,可以从历史处理信息中查询是否已经处理过相同的目标图像。当查询到历史处理信息中具有该目标图像时,便可以直接获取与该目标图像相对应的表征数据。该表征数据是服务器之前已经通过CNN算法对该目标图像进行处理后得到的。
在本实施方式中,对于不同的目标图像,其对应的表征数据往往是不同的,因此所述表征数据可以唯一标识所述目标图像。此外,由于所述表征数据可以根据目标图像中各个像素点的像素值生成,因此所述表征数据能表征所述目标图像的内容特征。所述内容特征可以是所述目标图像区别于其他图像的特征。例如,在目标图像中描绘了条纹的罩衫,在该罩衫的左肩有一个蓝色的蝴蝶结,那么该目标图像的表征数据中便可以通过数字化的方式表征左肩蓝色蝴蝶结的内容特征。
在本实施方式中,获取目标图像的表征数据的方式可以为:按照预设路径进行读取所述表征数据或者接收其它设备发来的所述表征数据。具体地,所述表征数据可以按照预设路径存储于存储器中,这样,所述服务器便可以按照所述预设路径,对存储于所述预设路径下的表征数据进行读取。此外,所述表征数据还可以是客户端根据目标图像的图像信息进行处理得到的。所述客户端在处理得到所述表征数据之后,可以将所述表征数据发送至所述服务器。这样,所述服务器便可以通过接收所述表征数据的方式来获取所述表征数据。
在本实施方式中,所述当前限制词汇可以是与所述目标图像相关的某个词汇。例如,对于一张蓝色立领风衣的图像而言,所述当前限制词汇可以是蓝色,也可以是立领,也可以是风衣。需要说明的是,所述当前限制词汇还可以是一个空词汇。所述空词汇不具备实际意义,其可能只是一个按照预设编写规则进行编写的字符。作为空词汇的当前限制词汇例如可以是一个表征文本信息开头的开始词汇。当将所述开始词汇作为当前限制词汇时,实际上并没有对所述目标图像的表征数据进行限制,这样,根据所述表征数据和开始词汇,便可以预测得到能够描述该目标图像的第一个描述词汇。
在本实施方式中,当所述当前预测词汇与预设词汇相匹配时,则表明当前限制词汇就是待处理图像对应的最后一个具备实际意义的描述词汇。所述预设词汇可以是不具备实际意义,而是表征结尾的空词汇。例如,对于卫衣图像而言,当将“卫衣”作为当前限制词汇时,根据“卫衣”与卫衣图像的表征数据预测得到的当前预测词汇就可以是表征结尾的空词汇。在这种情况下,说明与所述卫衣图像相关的预测词汇均已确定。
在本实施方式中,每当生成所述表征数据的当前预测词汇后,均可以将生成的预测词汇加入结果集。那么当所述当前预测词汇与预设词汇相匹配时,便可以获取所述预设词汇映射关系针对所述目标图像的结果集,从而可以将所述结果集中的词汇作为所述目标图像的文本信息。
在本实施方式中,所述结果集中的词汇可以按照各个词汇生成的时间顺序进行排列。例如,一个卫衣产品的图像对应的结果集中的词汇可以按照生成的时间顺序进行排列,那么结果集中的词汇依次可以为“白色”、“连帽”、“套头”、“卫衣”,那么当前限制词汇便可以为“卫衣”,根据“卫衣”和该产品图像的表征数据可以预测得到表征结尾的空词汇。此时,便可以将所述结果集中的词汇按照生成时间的排列组合作为该卫衣产品图像的文本信息,也就是“白色连帽套头卫衣”。
在本实施方式中,所述结果集中的词汇还可以根据不同的属性名来进行排序。具体地,所述属性名可以是表征所述词汇类别的名词,例如所述属性名可以是材质、适用人群、款式、领型、腰型、袖长、衣长、产品名等中的至少一个。所述属性名可以根据实际情况确定,不限于上述例举的这些属性名。这样,所述结果集中的每个词汇均可以对应各自的属性名。例如,“亚麻”对应的是材质,“男士”对应的是适用人群。在本实施方式中,可以预先规定属性名的排序规则,这样便可以按照预先确定的属性名排序规则,对所述结果集中的词汇进行排序,从而得到与所述目标图像相对应的文本信息。
在本实施方式中,所述当前预测词汇与预设词汇相同时,则可以表明所述当前预测词汇与预设词汇相匹配。在本实施方式中,所述预设词汇可以是表征结尾的并且不具备实际意义的空词汇。当所述当前预测词汇与所述预设词汇不同,但所述当前预测词汇与所述预设词汇之间满足预定算法对应关系时,也可以表明所述当前预测词汇与预设词汇相匹配。在这种情况下,尽管所述当前预测词汇与预设词汇的表现形式不同,但实际这两个词汇均是表征结尾的词汇,这两个词汇之间满足预定算法对应关系。那么在这种情况下,所述当前预测词汇与所述预设词汇也是相匹配的。
在本实施方式中,当所述当前预测词汇与预设词汇不相匹配时,则表明当前预测词汇并非表征结尾的空词汇,而是具备实际意义的描述词汇。在这种情况下,可以将所述当前预测词汇记入所述结果集,并将所述当前预测词汇作为下一次词汇预测的当前限制词汇。例如,对于卫衣图像而言,第一次的当前限制词汇可以为表征开头的空词汇,得到的第一个当前预测词汇为“白色”;后续则将“白色”作为当前限制词汇,得到的第二个当前预测词汇为“连帽”。以此类推,得到的第三个当前预测词汇为“套头”,第四个当前预测词汇为“卫衣”。这样,便可以将得到的具备实际意义的描述词汇加入结果集。
在本实施方式中,所述服务器可以包括具有数据信息处理功能的硬件设备和驱动该硬件设备工作所需必要的软件。所述服务器可以提供有预定端口,通过该预定端口可以向客户端发送描述信息。例如,所述服务器可以基于HTTP、TCP/IP或FTP等网络协议以及网络通信模块与客户端进行网络数据交互。
在本实施方式中,所述客户端可以是能够基于网络协议接入通信网络的终端设备。具体的,例如所述客户端可以为移动智能电话、计算机(包括笔记本电脑,台式电脑)、平板电子设备、个人数字助理(PDA)或者智能可穿戴设备等。此外,所述客户端也可以为运行于任一上述所列设备上的软件,例如支付宝客户端、手机淘宝客户端等。
在本申请一个实施方式中,当所述当前预测词汇与预设词汇不相匹配时,则表明当前预测词汇并非表征结尾的空词汇,而是具备实际意义的描述词汇。在这种情况下,可以将所述当前预测词汇记入所述结果集,并将所述当前预测词汇作为下一次词汇预测的限制词汇。例如,对于卫衣图像而言,第一次的当前限制词汇可以为表征开头的空词汇,得到的第一个当前预测词汇为“白色”;后续则将“白色”作为当前限制词汇,得到的第二个当前预测词汇为“连帽”。以此类推,得到的第三个当前预测词汇为“套头”,第四个当前预测词汇为“卫衣”。这样,便可以将得到的具备实际意义的描述词汇加入所述结果集中。
在本实施方式中,所述客户端可以按照预设服务器在网络中的通信地址,将所述目标图像的图像信息发送至所述预设服务器。在本实施方式中,所述目标图像的图像信息可以是存储目标图像的地址信息,也可以是对所述目标图像进行处理后得到的图像数据。
在本申请一个实施方式中,在根据所述表征数据以及当前限制词汇进行词汇预测,得到当前预测词汇的步骤中,可以包括:按照预设词汇映射关系,将所述表征数据和当前限制词汇的集合映射为当前预测词汇。
在本申请一个实施方式中,可以通过对样本训练集进行机器学习的方法来建立所述预设词汇映射关系。所述预设词汇映射关系的建立步骤可以参照图3中建立步骤,这里便不再赘述。
具体地,在本实施方式中,可以获取每个样本图像对应的描述语句。然后可以按照每个所述描述语句中词汇的词性,将每个所述描述语句拆分为预设数量的词汇,其中,所述预设数量的词汇形成与所述样本图像对应的词汇组。最后则可以从每个所述样本图像对应的词汇组中筛选出至少一个特征词汇,并按照所述预设规则对所述至少一个特征词汇进行排序,形成每个所述样本图像对应的样本描述词汇集。
在本申请一个实施方式中,在获取样本图像以及所述样本图像的描述语句时,有时候同一个样本图像会对应不同的描述语句。而在这些不同的描述语句中,可能大部分都是相同,只有少数几个不相同。为了避免这少数几个不相同的描述语句带来的干扰,在本实施方式中可以将重复次数最多的描述语句确定为所述样本图像的描述语句,从而可以对同一个样本图像的描述语句进行统一,避免后续在对样本训练集进行学习时出现错误,这样便可以提高机器学习的效率。
在本申请一个实施方式中,在对所述至少一个特征词汇进行排序时,可以按照各个特征词汇对应的属性名来进行排序。具体地,所述属性名可以是表征所述特征词汇类别的名词,例如所述属性名可以是材质、适用人群、款式、领型、腰型、袖长、衣长、产品名等中的至少一个。所述属性名可以根据实际情况确定,不限于上述例举的这些属性名。这样,便可以确定所述至少一个特征词汇中各个词汇分别对应的属性名。例如,“亚麻”对应的是材质,“男士”对应的是适用人群。在本实施方式中,可以预先规定属性名的排序规则,这样便可以按照预先确定的属性名排序规则,对所述至少一个特征词汇进行排序,从而得到所述样本描述词汇集。
在本申请一个实施方式中,所述当前限制词汇可以采用CBOW算法或者Skip-Gram算法或者GloVe算法,来转换为对应的词汇向量。这样便可以根据图像的表征数据以及当前限制词汇的词汇向量来预测得到当前预测词汇的词汇向量。
在本实施方式中,根据所述预设词汇映射关系,可以确定所述表征数据和当前限制词汇的集合对应的词汇概率组,所述词汇概率组中包括至少一个概率值,其中,每个概率值均与一个词汇相对应。在本实施方式中,可以将所述词汇概率组中最大的概率值对应的词汇向量确定为所述当前预测词汇向量。那么与所述当前预测词汇向量相对应的词汇便可以是所述当前预测词汇。
在本申请一个实施方式中,在将针对所述目标图像进行词汇预测得到的结果集中的词汇作为所述目标图像的文本信息的步骤中,可以包括:将针对所述目标图像进行词汇预测得到的结果集中的词汇按照预设排列规则的排列组合作为所述目标图像的文本信息。
在本实施方式中,所述按照预设排列规则可以是按照各个词汇生成的时间顺序进行排列。例如,一个卫衣产品的图像对应的结果集中的词汇可以按照生成的时间顺序进行排列,那么结果集中的词汇依次可以为“白色”、“连帽”、“套头”、“卫衣”,那么当前限制词汇便可以为“卫衣”,通过“卫衣”和该产品图像的表征数据便可以预测得到表征结尾的空词汇。此时,便可以将所述结果集中的词汇按照生成时间的排列组合作为该卫衣产品图像的文本信息,也就是“白色连帽套头卫衣”。
在本实施方式中,所述结果集中的词汇还可以根据不同的属性名来进行排序。具体地,所述属性名可以是表征所述词汇类别的名词,例如所述属性名可以是材质、适用人群、款式、领型、腰型、袖长、衣长、产品名等中的至少一个。所述属性名可以根据实际情况确定,不限于上述例举的这些属性名。这样,所述结果集中的每个词汇均可以对应各自的属性名。例如,“亚麻”对应的是材质,“男士”对应的是适用人群。在本实施方式中,可以预先规定属性名的排序规则,这样便可以按照预先确定的属性名排序规则,对所述结果集中的词汇进行排序,从而得到与所述目标图像相对应的文本信息。
在本申请一个实施方式中,可以将所述结果集中的词汇按照生成时间从先到后的排列组合作为所述目标图像的文本信息。例如,一个卫衣产品的图像对应的结果集中的词汇按照生成时间从先到后的顺序依次可以为“白色”、“连帽”、“套头”、“卫衣”,那么当前限制词汇便可以为“卫衣”,从而可以根据“卫衣”和该产品图像的表征数据预测得到表征结尾的空词汇。此时,便可以将所述结果集中的词汇按照生成时间从先到后的排列组合作为该卫衣产品图像的文本信息,也就是“白色连帽套头卫衣”。
请参阅图6,本申请还提供一种电子设备。所述电子设备可以包括处理器110、网络通信模块210和显示器310。
所述网络通信模块210,其可以用于进行网络数据通信。
所述处理器110,其可以用于控制所述网络通信模块将目标图像的图像信息发送给预设服务器并控制所述网络通信模块接收所述预设服务器针对所述图像信息反馈的文本信息;其中,所述文本信息为所述预设服务器采用如下方式生成:获取所述目标图像的表征数据;其中,所述表征数据表征所述目标图像的内容特征;根据所述表征数据以及当前限制词汇进行词汇预测,得到当前预测词汇;当所述当前预测词汇与预设词汇相匹配时,将针对所述目标图像进行词汇预测得到的结果集中的词汇作为所述目标图像的文本信息;其中,所述结果集中包括至少一个词汇。
所述显示器310,其可以用于显示所述预设服务器针对所述图像信息反馈的文本信息。
在本实施方式中,所述网络通信模块210能进行网络通信收发数据。网络通信模块可以是依照TCP/IP协议设置,并在该协议框架下进行网络通信。具体的,其可以为无线移动网络通信芯片,如GSM、CDMA等;其还可以为Wifi芯片;其还可以为蓝牙芯片。
在本实施方式中,所述处理器110可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本申请并不作限定。
在本实施方式中,所述显示器310可以为将一定的电子文件通过特定的传输设备显示到屏幕上再反射到人眼的显示工具。所述显示器可以包括液晶LCD显示屏、阴极射线管CRT显示屏、发光二极管LED显示屏等。
上述实施方式公开的电子设备,其处理器110、网络通信模块210,和显示器310实现的具体功能,可以与本申请中图像的文本信息的显示方法实施方式相对照解释,可以实现本申请的文本信息的显示方法实施方式并达到方法实施方式的技术效果。
请参阅图7,本申请还提供一种图像的文本信息的生成方法。所述方法可以包括以下步骤。
步骤S61:获取目标图像的表征数据;其中,所述表征数据表征所述目标图像的内容特征。
在本实施方式中,获取目标图像的表征数据的主体可以是服务器。所述目标图像可以是商家预先拍摄好并且发送至所述服务器中的。在本实施方式中,当获取到所述目标图像之后,服务器可以提取所述目标图像的表征数据。所述表征数据例如可以通过卷积神经网络(Convolutional Neural Network,CNN)算法对所述目标图像处理后得到的数据。在本实施方式中,所述CNN算法可以针对目标图像中各个像素点的像素值,计算得到与所述目标图像对应的图像特征向量。该图像特征向量例如可以为1024维的向量。该目标图像可以通过图像特征向量中每个元素的值以及不同元素之间的排列规则来共同确定。当然,本申请实施方式并不局限于卷积神经网络算法,其还可以采用Voronio棋盘格特征法、马尔可夫随机场模型法或者Gibbs随机场模型法来获取目标图像的表征数据。
在本实施方式中,所述目标图像的表征数据也可以是服务器根据历史处理信息获取的。例如,当服务器接收到客户端发来的目标图像时,可以从历史处理信息中查询是否已经处理过相同的目标图像。当查询到历史处理信息中具有该目标图像时,便可以直接获取与该目标图像相对应的表征数据。该表征数据是服务器之前已经通过CNN算法对该目标图像进行处理后得到的。
在本实施方式中,对于不同的目标图像,其对应的表征数据往往是不同的,因此所述表征数据可以唯一标识所述目标图像。此外,由于所述表征数据可以根据目标图像中各个像素点的像素值生成,因此所述表征数据能表征所述目标图像的内容特征。所述内容特征可以是所述目标图像区别于其他图像的特征。例如,在目标图像中描绘了条纹的罩衫,在该罩衫的左肩有一个蓝色的蝴蝶结,那么该目标图像的表征数据中便可以通过数字化的方式表征左肩蓝色蝴蝶结的内容特征。
在本实施方式中,获取目标图像的表征数据的方式可以为:按照预设路径进行读取所述表征数据或者接收其它设备发来的所述表征数据。具体地,所述表征数据可以按照预设路径存储于存储器中,这样,所述服务器便可以按照所述预设路径,对存储于所述预设路径下的表征数据进行读取。此外,所述表征数据还可以是客户端根据目标图像的图像信息进行处理得到的。所述客户端在处理得到所述表征数据之后,可以将所述表征数据发送至所述服务器。这样,所述服务器便可以通过接收所述表征数据的方式来获取所述表征数据。
在本实施方式中,所述服务器可以包括具有数据信息处理功能的硬件设备和驱动该硬件设备工作所需必要的软件。所述服务器可以提供有预定端口,通过该预定端口可以向客户端发送描述信息。例如,所述服务器可以基于HTTP、TCP/IP或FTP等网络协议以及网络通信模块与客户端进行网络数据交互。
在本实施方式中,所述客户端可以包括移动智能电话、计算机(包括笔记本电脑,台式电脑,服务器)、平板电子设备、个人数字助理(PDA)或者智能可穿戴设备。当然,客户端也可以是运行于上述硬件设备上的软体程序。
步骤S62:根据所述表征数据以及当前限制词汇进行词汇预测,得到当前预测词汇;将所述当前预测词汇作为下一次词汇预测的限制词汇,重复进行词汇预测至当前预测词汇与预设词汇相匹配。
步骤S63:将针对所述目标图像进行词汇预测得到的结果集中的词汇作为所述目标图像的文本信息;其中,所述结果集中包括至少一个词汇。
在本实施方式中,所述当前限制词汇可以是与所述目标图像相关的某个词汇。例如,对于一张蓝色立领风衣的图像而言,所述当前限制词汇可以是蓝色,也可以是立领,也可以是风衣。需要说明的是,所述当前限制词汇还可以是一个空词汇。所述空词汇不具备实际意义,其可能只是一个按照预设编写规则进行编写的字符。作为空词汇的当前限制词汇例如可以是一个表征文本信息开头的开始词汇。当将所述开始词汇作为当前限制词汇时,实际上并没有对所述目标图像的表征数据进行限制,这样,根据所述表征数据和开始词汇,便可以预测得到能够描述该目标图像的第一个描述词汇。
在本实施方式中,当所述当前预测词汇与预设词汇相匹配时,则表明当前限制词汇就是待处理图像对应的最后一个具备实际意义的描述词汇。所述预设词汇可以是不具备实际意义,而是表征结尾的空词汇。例如,对于卫衣图像而言,当将“卫衣”作为当前限制词汇时,根据“卫衣”与卫衣图像的表征数据预测得到的当前预测词汇就可以是表征结尾的空词汇。在这种情况下,说明与所述卫衣图像相关的预测词汇均已确定。
在本实施方式中,每当生成所述表征数据的当前预测词汇后,均可以将生成的预测词汇加入结果集。那么当所述当前预测词汇与预设词汇相匹配时,便可以获取所述预设词汇映射关系针对所述目标图像的结果集,从而可以将所述结果集中的词汇作为所述目标图像的文本信息。
在本实施方式中,所述结果集中的词汇可以按照各个词汇生成的时间顺序进行排列。例如,一个卫衣产品的图像对应的结果集中的词汇可以按照生成的时间顺序进行排列,那么结果集中的词汇依次可以为“白色”、“连帽”、“套头”、“卫衣”,那么当前限制词汇便可以为“卫衣”,根据“卫衣”和该产品图像的表征数据可以预测得到表征结尾的空词汇。此时,便可以将所述结果集中的词汇按照生成时间的排列组合作为该卫衣产品图像的文本信息,也就是“白色连帽套头卫衣”。
在本实施方式中,所述结果集中的词汇还可以根据不同的属性名来进行排序。具体地,所述属性名可以是表征所述词汇类别的名词,例如所述属性名可以是材质、适用人群、款式、领型、腰型、袖长、衣长、产品名等中的至少一个。所述属性名可以根据实际情况确定,不限于上述例举的这些属性名。这样,所述结果集中的每个词汇均可以对应各自的属性名。例如,“亚麻”对应的是材质,“男士”对应的是适用人群。在本实施方式中,可以预先规定属性名的排序规则,这样便可以按照预先确定的属性名排序规则,对所述结果集中的词汇进行排序,从而得到与所述目标图像相对应的文本信息。
在本实施方式中,所述当前预测词汇与预设词汇相同时,则可以表明所述当前预测词汇与预设词汇相匹配。在本实施方式中,所述预设词汇可以是表征结尾的并且不具备实际意义的空词汇。当所述当前预测词汇与所述预设词汇不同,但所述当前预测词汇与所述预设词汇之间满足预定算法对应关系时,也可以表明所述当前预测词汇与预设词汇相匹配。在这种情况下,尽管所述当前预测词汇与预设词汇的表现形式不同,但实际这两个词汇均是表征结尾的词汇,这两个词汇之间满足预定算法对应关系。那么在这种情况下,所述当前预测词汇与所述预设词汇也是相匹配的。
在本实施方式中,当所述当前预测词汇与预设词汇不相匹配时,则表明当前预测词汇并非表征结尾的空词汇,而是具备实际意义的描述词汇。在这种情况下,可以将所述当前预测词汇记入所述结果集,并将所述当前预测词汇作为下一次词汇预测的当前限制词汇。例如,对于卫衣图像而言,第一次的当前限制词汇可以为表征开头的空词汇,得到的第一个当前预测词汇为“白色”;后续则将“白色”作为当前限制词汇,得到的第二个当前预测词汇为“连帽”。以此类推,得到的第三个当前预测词汇为“套头”,第四个当前预测词汇为“卫衣”。这样,便可以将得到的具备实际意义的描述词汇加入结果集。
在本申请一个实施方式中,在根据所述表征数据以及当前限制词汇进行词汇预测,得到当前预测词汇的步骤中,可以包括:按照预设词汇映射关系,将所述表征数据和当前限制词汇的集合映射为当前预测词汇。
在本申请一个实施方式中,可以通过对样本训练集进行机器学习的方法来建立所述预设词汇映射关系。所述预设词汇映射关系的建立步骤可以参照图3中的建立步骤,这里便不再赘述。
具体地,在本实施方式中,可以获取每个样本图像对应的描述语句。然后可以按照每个所述描述语句中词汇的词性,将每个所述描述语句拆分为预设数量的词汇,其中,所述预设数量的词汇形成与所述样本图像对应的词汇组。最后则可以从每个所述样本图像对应的词汇组中筛选出至少一个特征词汇,并按照所述预设规则对所述至少一个特征词汇进行排序,形成每个所述样本图像对应的样本描述词汇集。
在本申请一个实施方式中,在获取样本图像以及所述样本图像的描述语句时,有时候同一个样本图像会对应不同的描述语句。而在这些不同的描述语句中,可能大部分都是相同,只有少数几个不相同。为了避免这少数几个不相同的描述语句带来的干扰,在本实施方式中可以将重复次数最多的描述语句确定为所述样本图像的描述语句,从而可以对同一个样本图像的描述语句进行统一,避免后续在对样本训练集进行学习时出现错误,这样便可以提高机器学习的效率。
在本申请一个实施方式中,在对所述至少一个特征词汇进行排序时,可以按照各个特征词汇对应的属性名来进行排序。具体地,所述属性名可以是表征所述特征词汇类别的名词,例如所述属性名可以是材质、适用人群、款式、领型、腰型、袖长、衣长、产品名等中的至少一个。所述属性名可以根据实际情况确定,不限于上述例举的这些属性名。这样,便可以确定所述至少一个特征词汇中各个词汇分别对应的属性名。例如,“亚麻”对应的是材质,“男士”对应的是适用人群。在本实施方式中,可以预先规定属性名的排序规则,这样便可以按照预先确定的属性名排序规则,对所述至少一个特征词汇进行排序,从而得到所述样本描述词汇集。
在本申请一个实施方式中,所述当前限制词汇可以采用CBOW算法或者Skip-Gram算法或者GloVe算法,来转换为对应的词汇向量。这样便可以根据图像的表征数据以及当前限制词汇的词汇向量来预测得到当前预测词汇的词汇向量。
在本实施方式中,根据所述预设词汇映射关系,可以确定所述表征数据和当前限制词汇的集合对应的词汇概率组,所述词汇概率组中包括至少一个概率值,其中,每个概率值均与一个词汇相对应。在本实施方式中,可以将所述词汇概率组中最大的概率值对应的词汇向量确定为所述当前预测词汇向量。那么与所述当前预测词汇向量相对应的词汇便可以是所述当前预测词汇。
在本申请一个实施方式中,在将针对所述目标图像进行词汇预测得到的结果集中的词汇作为所述目标图像的文本信息的步骤中,可以包括:将针对所述目标图像进行词汇预测得到的结果集中的词汇按照预设排列规则的排列组合作为所述目标图像的文本信息。
在本实施方式中,所述按照预设排列规则可以是按照各个词汇生成的时间顺序进行排列。例如,一个卫衣产品的图像对应的结果集中的词汇可以按照生成的时间顺序进行排列,那么结果集中的词汇依次可以为“白色”、“连帽”、“套头”、“卫衣”,那么当前限制词汇便可以为“卫衣”,通过“卫衣”和该产品图像的表征数据便可以预测得到表征结尾的空词汇。此时,便可以将所述结果集中的词汇按照生成时间的排列组合作为该卫衣产品图像的文本信息,也就是“白色连帽套头卫衣”。
在本实施方式中,所述结果集中的词汇还可以根据不同的属性名来进行排序。具体地,所述属性名可以是表征所述词汇类别的名词,例如所述属性名可以是材质、适用人群、款式、领型、腰型、袖长、衣长、产品名等中的至少一个。所述属性名可以根据实际情况确定,不限于上述例举的这些属性名。这样,所述结果集中的每个词汇均可以对应各自的属性名。例如,“亚麻”对应的是材质,“男士”对应的是适用人群。在本实施方式中,可以预先规定属性名的排序规则,这样便可以按照预先确定的属性名排序规则,对所述结果集中的词汇进行排序,从而得到与所述目标图像相对应的文本信息。
在本申请一个实施方式中,可以将所述结果集中的词汇按照生成时间从先到后的排列组合作为所述目标图像的文本信息。例如,一个卫衣产品的图像对应的结果集中的词汇按照生成时间从先到后的顺序依次可以为“白色”、“连帽”、“套头”、“卫衣”,那么当前限制词汇便可以为“卫衣”,从而可以根据“卫衣”和该产品图像的表征数据预测得到表征结尾的空词汇。此时,便可以将所述结果集中的词汇按照生成时间从先到后的排列组合作为该卫衣产品图像的文本信息,也就是“白色连帽套头卫衣”。
请参阅图8,本申请还提供一种电子设备。如图8所示,所述电子设备包括处理器120和存储器220。
所述存储器220,其可以用于存储目标图像的表征数据和针对所述目标图像进行词汇预测得到的结果集,其中,所述表征数据表征所述目标图像的内容特征,所述结果集中包括至少一个词汇;
所述处理器120,其可以用于从所述存储器中获取所述表征数据并根据所述表征数据以及当前限制词汇进行词汇预测,得到当前预测词汇;将所述当前预测词汇作为下一次词汇预测的限制词汇,重复进行词汇预测至当前预测词汇与预设词汇相匹配;将针对所述目标图像进行词汇预测得到的结果集中的词汇作为所述目标图像的文本信息。
在本实施方式中,所述存储器可以是用于保存信息的记忆设备。在数字系统中,能保存二进制数据的设备可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也可以为存储器,如RAM、FIFO等;在系统中,具有实物形式的存储设备也可以叫存储器,如内存条、TF卡等。
在本实施方式中,所述处理器可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本申请并不作限定。
上述实施方式公开的电子设备,其处理器120和存储器220实现的具体功能,可以与本申请中如图7所示的图像的文本信息的生成方法实施方式相对照解释,可以实现本申请的文本信息的生成方法实施方式并达到方法实施方式的技术效果。
由以上本申请实施方式提供的技术方案可见,本申请通过将目标图像的表征数据与当前限制词汇共同作为词汇预测的基础,使得生成的当前预测词汇受所述当前限制词汇以及表征数据这两者的共同约束,从而保证生成的当前预测词汇能够正确反映目标图像的特征并且能够使得生成的当前预测词汇与当前限制词汇保持依赖关系。这样,通过表征数据和当前预测词汇之间的相互约束,可以使得生成的文本信息能够更加准确地描述目标图像的特征,从而可以减少用户为了调整生成的文本信息而投入的精力和时间。
在本说明书中,诸如第一和第二这样的形容词仅可以用于将一个元素或动作与另一元素或动作进行区分,而不必要求或暗示任何实际的这种关系或顺序。在环境允许的情况下,参照元素或部件或步骤(等)不应解释为局限于仅元素、部件、或步骤中的一个,而可以是元素、部件、或步骤中的一个或多个等。
上面对本申请的各种实施方式的描述以描述的目的提供给本领域技术人员。其不旨在是穷举的、或者不旨在将本发明限制于单个公开的实施方式。如上所述,本申请的各种替代和变化对于上述技术所属领域技术人员而言将是显而易见的。因此,虽然已经具体讨论了一些另选的实施方式,但是其它实施方式将是显而易见的,或者本领域技术人员相对容易得出。本申请旨在包括在此已经讨论过的本发明的所有替代、修改、和变化,以及落在上述申请的精神和范围内的其它实施方式。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片2。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog2。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
上述实施方式阐明的装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施方式或者实施方式的某些部分所述的方法。
本说明书中的各个实施方式均采用递进的方式描述,各个实施方式之间相同相似的部分互相参见即可,每个实施方式重点说明的都是与其他实施方式的不同之处。尤其,对于电子设备实施方式而言,由于其基本相似于方法实施方式,所以描述的比较简单,相关之处参见方法实施方式的部分说明即可。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
虽然通过实施方式描绘了本申请,本领域普通技术人员知道,本申请有许多变形和变化而不脱离本申请的精神,希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims (35)

1.一种图像的文本信息的生成方法,其特征在于,包括:
获取目标图像的表征数据;其中所述表征数据表征所述目标图像的内容特征;
根据所述表征数据和当前限制词汇共同进行词汇预测,得到当前预测词汇;
当所述当前预测词汇与预设词汇相匹配时,将针对所述目标图像进行词汇预测得到的结果集中的词汇作为所述目标图像的文本信息;其中,所述结果集中包括至少一个词汇。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述当前预测词汇与预设词汇不相匹配时,将所述当前预测词汇记入所述结果集中;并将所述当前预测词汇作为下一次词汇预测的限制词汇。
3.根据权利要求1所述的方法,其特征在于,根据所述表征数据以及当前限制词汇进行词汇预测,得到当前预测词汇具体包括:
按照预设词汇映射关系,将所述表征数据和当前限制词汇的集合映射为当前预测词汇。
4.根据权利要求3所述的方法,其特征在于,所述预设词汇映射关系通过下述步骤建立:
获取样本训练集,所述样本训练集中包括至少一个样本图文关联组,所述样本图文关联组中包括相关联的样本图像表征数据与样本描述词汇集,所述样本描述词汇集中的描述词汇按照预设规则排列;
针对所述样本训练集中的每组样本图文关联组,所述预设词汇映射关系均满足:
对于样本描述词汇集中任意相邻的第一描述词汇和第二描述词汇,其中,所述第一描述词汇位于所述第二描述词汇之前,所述预设词汇映射关系将所述样本图像的表征数据和所述第一描述词汇的集合映射为所述第二描述词。
5.根据权利要求4所述的方法,其特征在于,所述样本描述词汇集通过以下步骤确定:
获取每个样本图像对应的描述语句;
按照每个所述描述语句中词汇的词性,将每个所述描述语句拆分为预设数量的词汇;其中,所述预设数量的词汇形成与所述样本图像对应的词汇组;
从每个所述样本图像对应的词汇组中筛选出至少一个特征词汇,并按照所述预设规则对所述至少一个特征词汇进行排序,形成每个所述样本图像对应的样本描述词汇集。
6.根据权利要求5所述的方法,其特征在于,从所述预设数量的词汇中筛选出至少一个特征词汇具体包括:
确定所述预设数量的词汇中各个词汇对应的优先级参数;
将优先级参数大于或者等于预设参数阈值的词汇确定为所述特征词汇。
7.根据权利要求5所述的方法,其特征在于,当所述样本图像对应的描述语句有多个时,将重复次数最多的描述语句确定为所述样本图像对应的描述语句。
8.根据权利要求5所述的方法,其特征在于,按照所述预设规则对所述至少一个特征词汇进行排序具体包括:
确定所述至少一个特征词汇中各个词汇分别对应的属性名;
按照预先确定的属性名排序规则,对所述至少一个特征词汇进行排序。
9.根据权利要求3所述的方法,其特征在于,按照预设词汇映射关系,将所述表征数据和当前限制词汇的集合映射为当前预测词汇具体包括:
根据所述预设词汇映射关系,确定所述表征数据和当前限制词汇的集合对应的词汇概率组,所述词汇概率组中包括至少一个概率值,其中,每个概率值均与一个词汇相对应;
将所述词汇概率组中最大的概率值对应的词汇确定为所述当前预测词汇。
10.根据权利要求1所述的方法,其特征在于,将针对所述目标图像进行词汇预测得到的结果集中的词汇作为所述目标图像的文本信息具体包括:
将针对所述目标图像进行词汇预测得到的结果集中的词汇按照预设排列规则的排列组合作为所述目标图像的文本信息。
11.根据权利要求10所述的方法,其特征在于,将针对所述目标图像进行词汇预测得到的结果集中的词汇按照预设排列规则的排列组合作为所述目标图像的文本信息具体包括:
将针对所述目标图像进行词汇预测得到的结果集中的词汇按照生成时间从先到后的排列组合作为所述目标图像的文本信息。
12.一种电子设备,其特征在于,包括处理器和存储器,其中:
所述存储器,其用于存储目标图像的表征数据以及针对所述目标图像进行词汇预测得到的结果集,其中,所述表征数据表征所述目标图像的内容特征,所述结果集中包括至少一个词汇;
所述处理器,其用于从所述存储器中获取所述目标图像的表征数据并根据所述表征数据和当前限制词汇共同进行词汇预测,得到当前预测词汇;当所述当前预测词汇与预设词汇相匹配时,将针对所述目标图像进行词汇预测得到的结果集中的词汇作为所述目标图像的文本信息;其中,所述结果集中包括至少一个词汇。
13.一种图像的文本信息的显示方法,其特征在于,包括:
客户端将目标图像的图像信息发送给预设服务器;
接收并显示所述预设服务器针对所述图像信息反馈的文本信息;其中,所述文本信息为所述预设服务器采用如下方式生成:获取所述目标图像的表征数据;其中,所述表征数据表征所述目标图像的内容特征;根据所述表征数据和当前限制词汇共同进行词汇预测,得到当前预测词汇;当所述当前预测词汇与预设词汇相匹配时,将针对所述目标图像进行词汇预测得到的结果集中的词汇作为所述目标图像的文本信息;其中,所述结果集中包括至少一个词汇。
14.根据权利要求13所述的方法,其特征在于,所述方法还包括:
当所述当前预测词汇与预设词汇不相匹配时,将所述当前预测词汇记入所述结果集中;并将所述当前预测词汇作为下一次词汇预测的限制词汇。
15.根据权利要求13所述的方法,其特征在于,根据所述表征数据以及当前限制词汇进行词汇预测,得到当前预测词汇具体包括:
按照预设词汇映射关系,将所述表征数据和当前限制词汇的集合映射为当前预测词汇。
16.根据权利要求15所述的方法,其特征在于,所述预设词汇映射关系通过下述步骤建立:
获取样本训练集,所述样本训练集中包括至少一个样本图文关联组,所述样本图文关联组中包括相关联的样本图像表征数据与样本描述词汇集,所述样本描述词汇集中的描述词汇按照预设规则排列;
针对所述样本训练集中的每组样本图文关联组,所述预设词汇映射关系均满足:
对于样本描述词汇集中任意相邻的第一描述词汇和第二描述词汇,其中,所述第一描述词汇位于所述第二描述词汇之前,所述预设词汇映射关系将所述样本图像的表征数据和所述第一描述词汇的集合映射为所述第二描述词。
17.根据权利要求16所述的方法,其特征在于,所述样本描述词汇集通过以下步骤确定:
获取每个样本图像对应的描述语句;
按照每个所述描述语句中词汇的词性,将每个所述描述语句拆分为预设数量的词汇;其中,所述预设数量的词汇形成与所述样本图像对应的词汇组;
从每个所述样本图像对应的词汇组中筛选出至少一个特征词汇,并按照所述预设规则对所述至少一个特征词汇进行排序,形成每个所述样本图像对应的样本描述词汇集。
18.根据权利要求17所述的方法,其特征在于,从所述预设数量的词汇中筛选出至少一个特征词汇具体包括:
确定所述预设数量的词汇中各个词汇对应的优先级参数;
将优先级参数大于或者等于预设参数阈值的词汇确定为所述特征词汇。
19.根据权利要求17所述的方法,其特征在于,当所述样本图像对应的描述语句有多个时,将重复次数最多的描述语句确定为所述样本图像对应的描述语句。
20.根据权利要求17所述的方法,其特征在于,按照所述预设规则对所述至少一个特征词汇进行排序具体包括:
确定所述至少一个特征词汇中各个词汇分别对应的属性名;
按照预先确定的属性名排序规则,对所述至少一个特征词汇进行排序。
21.根据权利要求15所述的方法,其特征在于,按照预设词汇映射关系,将所述表征数据和当前限制词汇的集合映射为当前预测词汇具体包括:
根据所述预设词汇映射关系,确定所述表征数据和当前限制词汇的集合对应的词汇概率组,所述词汇概率组中包括至少一个概率值,其中,每个概率值均与一个词汇相对应;
将所述词汇概率组中最大的概率值对应的词汇确定为所述当前预测词汇。
22.根据权利要求13所述的方法,其特征在于,将针对所述目标图像进行词汇预测得到的结果集中的词汇作为所述目标图像的文本信息具体包括:
将针对所述目标图像进行词汇预测得到的结果集中的词汇按照预设排列规则的排列组合作为所述目标图像的文本信息。
23.根据权利要求22所述的方法,其特征在于,将针对所述目标图像进行词汇预测得到的结果集中的词汇按照预设排列规则的排列组合作为所述目标图像的文本信息具体包括:
将针对所述目标图像进行词汇预测得到的结果集中的词汇按照生成时间从先到后的排列组合作为所述目标图像的文本信息。
24.一种电子设备,其特征在于,包括处理器、网络通信模块和显示器,其中:
所述网络通信模块,其用于进行网络数据通信;
所述处理器,其用于控制所述网络通信模块将目标图像的图像信息发送给预设服务器并控制所述网络通信模块接收所述预设服务器针对所述图像信息反馈的文本信息;其中,所述文本信息为所述预设服务器采用如下方式生成:获取所述目标图像的表征数据;其中,所述表征数据表征所述目标图像的内容特征;根据所述表征数据和当前限制词汇共同进行词汇预测,得到当前预测词汇;当所述当前预测词汇与预设词汇相匹配时,将针对所述目标图像进行词汇预测得到的结果集中的词汇作为所述目标图像的文本信息;其中,所述结果集中包括至少一个词汇;
所述显示器,其用于显示所述预设服务器针对所述图像信息反馈的文本信息。
25.一种图像的文本信息的生成方法,其特征在于,包括:
获取目标图像的表征数据;其中,所述表征数据表征所述目标图像的内容特征;
根据所述表征数据和当前限制词汇共同进行词汇预测,得到当前预测词汇;将所述当前预测词汇作为下一次词汇预测的限制词汇,重复进行词汇预测至当前预测词汇与预设词汇相匹配;
将针对所述目标图像进行词汇预测得到的结果集中的词汇作为所述目标图像的文本信息;其中,所述结果集中包括至少一个词汇。
26.根据权利要求25所述的方法,其特征在于,根据所述表征数据以及当前限制词汇进行词汇预测,得到当前预测词汇具体包括:
按照预设词汇映射关系,将所述表征数据和当前限制词汇的集合映射为当前预测词汇。
27.根据权利要求26所述的方法,其特征在于,所述预设词汇映射关系通过下述步骤建立:
获取样本训练集,所述样本训练集中包括至少一个样本图文关联组,所述样本图文关联组中包括相关联的样本图像表征数据与样本描述词汇集,所述样本描述词汇集中的描述词汇按照预设规则排列;
针对所述样本训练集中的每组样本图文关联组,所述预设词汇映射关系均满足:
对于样本描述词汇集中任意相邻的第一描述词汇和第二描述词汇,其中,所述第一描述词汇位于所述第二描述词汇之前,所述预设词汇映射关系将所述样本图像的表征数据和所述第一描述词汇的集合映射为所述第二描述词。
28.根据权利要求27所述的方法,其特征在于,所述样本描述词汇集通过以下步骤确定:
获取每个样本图像对应的描述语句;
按照每个所述描述语句中词汇的词性,将每个所述描述语句拆分为预设数量的词汇;其中,所述预设数量的词汇形成与所述样本图像对应的词汇组;
从每个所述样本图像对应的词汇组中筛选出至少一个特征词汇,并按照所述预设规则对所述至少一个特征词汇进行排序,形成每个所述样本图像对应的样本描述词汇集。
29.根据权利要求28所述的方法,其特征在于,从所述预设数量的词汇中筛选出至少一个特征词汇具体包括:
确定所述预设数量的词汇中各个词汇对应的优先级参数;
将优先级参数大于或者等于预设参数阈值的词汇确定为所述特征词汇。
30.根据权利要求28所述的方法,其特征在于,当所述样本图像对应的描述语句有多个时,将重复次数最多的描述语句确定为所述样本图像对应的描述语句。
31.根据权利要求28所述的方法,其特征在于,按照所述预设规则对所述至少一个特征词汇进行排序具体包括:
确定所述至少一个特征词汇中各个词汇分别对应的属性名;
按照预先确定的属性名排序规则,对所述至少一个特征词汇进行排序。
32.根据权利要求26所述的方法,其特征在于,按照预设词汇映射关系,将所述表征数据和当前限制词汇的集合映射为当前预测词汇具体包括:
根据所述预设词汇映射关系,确定所述表征数据和当前限制词汇的集合对应的词汇概率组,所述词汇概率组中包括至少一个概率值,其中,每个概率值均与一个词汇相对应;
将所述词汇概率组中最大的概率值对应的词汇确定为所述当前预测词汇。
33.根据权利要求25所述的方法,其特征在于,将针对所述目标图像进行词汇预测得到的结果集中的词汇作为所述目标图像的文本信息具体包括:
将针对所述目标图像进行词汇预测得到的结果集中的词汇按照预设排列规则的排列组合作为所述目标图像的文本信息。
34.根据权利要求33所述的方法,其特征在于,将针对所述目标图像进行词汇预测得到的结果集中的词汇按照预设排列规则的排列组合作为所述目标图像的文本信息具体包括:
将针对所述目标图像进行词汇预测得到的结果集中的词汇按照生成时间从先到后的排列组合作为所述目标图像的文本信息。
35.一种电子设备,其特征在于,包括处理器和存储器,其中:
所述存储器,其用于存储目标图像的表征数据和针对所述目标图像进行词汇预测得到的结果集,其中,所述表征数据表征所述目标图像的内容特征,所述结果集中包括至少一个词汇;
所述处理器,其用于从所述存储器中获取所述表征数据并根据所述表征数据和当前限制词汇共同进行词汇预测,得到当前预测词汇;将所述当前预测词汇作为下一次词汇预测的限制词汇,重复进行词汇预测至当前预测词汇与预设词汇相匹配;将针对所述目标图像进行词汇预测得到的结果集中的词汇作为所述目标图像的文本信息。
CN201610675750.8A 2016-08-16 2016-08-16 一种图像的文本信息的生成、显示方法及电子设备 Active CN107766853B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610675750.8A CN107766853B (zh) 2016-08-16 2016-08-16 一种图像的文本信息的生成、显示方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610675750.8A CN107766853B (zh) 2016-08-16 2016-08-16 一种图像的文本信息的生成、显示方法及电子设备

Publications (2)

Publication Number Publication Date
CN107766853A CN107766853A (zh) 2018-03-06
CN107766853B true CN107766853B (zh) 2021-08-06

Family

ID=61260948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610675750.8A Active CN107766853B (zh) 2016-08-16 2016-08-16 一种图像的文本信息的生成、显示方法及电子设备

Country Status (1)

Country Link
CN (1) CN107766853B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033220B (zh) * 2018-06-29 2022-09-06 北京京东尚科信息技术有限公司 标注数据的自动选取方法、系统、设备和存储介质
CN109657079A (zh) * 2018-11-13 2019-04-19 平安科技(深圳)有限公司 一种图像描述方法及终端设备
CN109635135A (zh) * 2018-11-30 2019-04-16 Oppo广东移动通信有限公司 图像索引生成方法、装置、终端及存储介质
CN110210018B (zh) * 2019-05-14 2023-07-11 北京百度网讯科技有限公司 挂号科室的匹配方法和装置
CN112347262B (zh) * 2021-01-11 2021-04-13 北京江融信科技有限公司 一种文本分类方法及系统、意图分类系统和机器人

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1791079A1 (en) * 2005-11-25 2007-05-30 Fuji Xerox Co., Ltd. Method and apparatus for making tags, tag, and system for managing articles
CN101388022A (zh) * 2008-08-12 2009-03-18 北京交通大学 一种融合文本语义和视觉内容的Web人像检索方法
CN102292722A (zh) * 2009-01-21 2011-12-21 瑞典爱立信有限公司 基于多模元数据和结构化语义描述符来产生注释标签
CN102508923A (zh) * 2011-11-22 2012-06-20 北京大学 基于自动分类和关键字标注的自动视频注释方法
CN102880612A (zh) * 2011-07-14 2013-01-16 富士通株式会社 图像标注方法及其装置
CN103064969A (zh) * 2012-12-31 2013-04-24 武汉传神信息技术有限公司 自动建立关键词索引表的方法
CN103473327A (zh) * 2013-09-13 2013-12-25 广东图图搜网络科技有限公司 图像检索方法与系统
CN103544216A (zh) * 2013-09-23 2014-01-29 Tcl集团股份有限公司 一种结合图像内容和关键字的信息推荐方法及系统
CN105005616A (zh) * 2015-07-20 2015-10-28 清华大学 基于文本图片特征交互扩充的文本图解方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7885955B2 (en) * 2005-08-23 2011-02-08 Ricoh Co. Ltd. Shared document annotation
US8655803B2 (en) * 2008-12-17 2014-02-18 Xerox Corporation Method of feature extraction from noisy documents

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1791079A1 (en) * 2005-11-25 2007-05-30 Fuji Xerox Co., Ltd. Method and apparatus for making tags, tag, and system for managing articles
CN101388022A (zh) * 2008-08-12 2009-03-18 北京交通大学 一种融合文本语义和视觉内容的Web人像检索方法
CN102292722A (zh) * 2009-01-21 2011-12-21 瑞典爱立信有限公司 基于多模元数据和结构化语义描述符来产生注释标签
CN102880612A (zh) * 2011-07-14 2013-01-16 富士通株式会社 图像标注方法及其装置
CN102508923A (zh) * 2011-11-22 2012-06-20 北京大学 基于自动分类和关键字标注的自动视频注释方法
CN103064969A (zh) * 2012-12-31 2013-04-24 武汉传神信息技术有限公司 自动建立关键词索引表的方法
CN103473327A (zh) * 2013-09-13 2013-12-25 广东图图搜网络科技有限公司 图像检索方法与系统
CN103544216A (zh) * 2013-09-23 2014-01-29 Tcl集团股份有限公司 一种结合图像内容和关键字的信息推荐方法及系统
CN105005616A (zh) * 2015-07-20 2015-10-28 清华大学 基于文本图片特征交互扩充的文本图解方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Improved Video Categorization from Text Metadata and User Comments;Katja Filippova 等;《SIGIR"ll》;20110728;第1-8页 *
图片购物检索研究;王召义;《长春理工大学学报(社会科学版)》;20121031;第25卷(第10期);第96-98页 *

Also Published As

Publication number Publication date
CN107766853A (zh) 2018-03-06

Similar Documents

Publication Publication Date Title
CN107766853B (zh) 一种图像的文本信息的生成、显示方法及电子设备
US10043109B1 (en) Attribute similarity-based search
US9607010B1 (en) Techniques for shape-based search of content
US11275906B2 (en) Natural language text conversion and method therefor
CN109801119B (zh) 界面展示、信息提供、用户行为内容信息处理方法及设备
CN107766349B (zh) 一种生成文本的方法、装置、设备及客户端
US20180268307A1 (en) Analysis device, analysis method, and computer readable storage medium
CN108664651B (zh) 一种图案推荐方法、装置及存储介质
WO2020020137A1 (zh) 商品推荐方法、装置、系统及计算机可读存储介质
CN109710935B (zh) 一种基于文物知识图谱的博物馆导览与知识推荐方法
KR102227896B1 (ko) 영상데이터의 외형서술데이터 획득 방법, 장치 및 프로그램
US9324102B2 (en) System and method to retrieve relevant inventory using sketch-based query
US10776417B1 (en) Parts-based visual similarity search
US20210166014A1 (en) Generating document summary
US20110022635A1 (en) Method and System to Formulate Queries With Minivisuals
CN112487242A (zh) 用于识别视频的方法、装置、电子设备及可读存储介质
CN112464025A (zh) 视频推荐方法、装置、电子设备及介质
KR102301663B1 (ko) 시각 검색 쿼리를 사용하여 물리적 객체를 식별하는 기법
CN112860929A (zh) 一种图片搜索方法、装置、电子设备及存储介质
JP2021086438A (ja) 画像検索装置、画像検索方法、及びプログラム
CN117420998A (zh) 一种客户端ui交互组件生成方法、装置、终端及介质
CN112989177B (zh) 信息处理方法、装置、电子设备及计算机存储介质
CN111223014B (zh) 一种从大量细分教学内容在线生成细分场景教学课程的方法和系统
CN113557504A (zh) 用于基于媒体内容项的目的地的对媒体内容项的改进的搜索和分类的系统和方法
KR20220044715A (ko) 패션 상품 추천 방법, 장치 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant