CN112650867A - 图片匹配方法、装置、电子设备以及存储介质 - Google Patents

图片匹配方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN112650867A
CN112650867A CN202011561238.3A CN202011561238A CN112650867A CN 112650867 A CN112650867 A CN 112650867A CN 202011561238 A CN202011561238 A CN 202011561238A CN 112650867 A CN112650867 A CN 112650867A
Authority
CN
China
Prior art keywords
picture
text
information
model
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011561238.3A
Other languages
English (en)
Inventor
徐楠
马先钦
吴晓飞
孔庆超
张西娜
曹家
曲宝玉
罗引
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Wenge Technology Co ltd
Original Assignee
Beijing Zhongke Wenge Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Wenge Technology Co ltd filed Critical Beijing Zhongke Wenge Technology Co ltd
Priority to CN202011561238.3A priority Critical patent/CN112650867A/zh
Publication of CN112650867A publication Critical patent/CN112650867A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text

Abstract

本发明实施例公开了一种图片匹配方法、装置、电子设备以及存储介质。该方法包括:获取目标文本,基于预先训练的特征提取模型提取所述目标文本的文本特征信息;将所述文本特征信息与预设图库中各图片的图片特征信息进行匹配,其中,所述各图片的图片特征信息基于所述预先训练的特征提取模型对各图片提取得到,所述特征提取模型包括文本特征提取子模型、图片特征提取子模型以及分别与所述文本特征提取子模型、所述图片特征提取子模型连接的联合特征提取子模型;将与所述文本特征信息相匹配的图片确定为所述目标文本的匹配图片。通过本发明实施例公开的技术方案,实现了文本自动配图,提升文本的观感质量,激发读者的阅读兴趣,提升读者的阅读体验。

Description

图片匹配方法、装置、电子设备以及存储介质
技术领域
本发明实施例涉及计算机视觉和自然语言技术领域,尤其涉及一种图片匹配方法、装置、电子设备以及存储介质。
背景技术
新闻中的图片不仅可以让读者直观、一目了然的了解新闻的主要内容,还可以在很大程度上激发读者的兴趣,提升读者的阅读体验,从而吸引更多的读者。因此图片在新闻报道中有着文字不可替代的作用,为给每篇新闻稿件都配上合适的图片有着极其重要的意义。
现有的技术方法大都直接利用长篇的文本内容进行图文匹配,匹配图片的结果极可能不符合新闻主题。并且,现有的方法主要利用有图新闻中的图片构造补图库,并将新闻中的多个主题标签作为该图的标签,使图片的匹配效率较低。
发明内容
本发明提供一种图片匹配方法、装置、电子设备以及存储介质,实现文本自动配图,从而提升文本的观感质量,激发读者的阅读兴趣,提升读者的阅读体验。
第一方面,本发明实施例提供了一种图片匹配方法,该方法包括:
获取目标文本,基于预先训练的特征提取模型提取所述目标文本的文本特征信息;
将所述文本特征信息与预设图库中各图片的图片特征信息进行匹配,其中,所述各图片的图片特征信息基于所述预先训练的特征提取模型对各图片提取得到,所述特征提取模型包括文本特征提取子模型、图片特征提取子模型以及分别与所述文本特征提取子模型、所述图片特征提取子模型连接的联合特征提取子模型;
将与所述文本特征信息相匹配的图片确定为所述目标文本的匹配图片。
第二方面,本发明实施例还提供了一种图片匹配装置,该装置包括:
文本特征信息获取模块,用于获取目标文本,基于预先训练的特征提取模型提取所述目标文本的文本特征信息;
文本特征信息匹配模块,用于将所述文本特征信息与预设图库中各图片的图片特征信息进行匹配,其中,所述各图片的图片特征信息基于所述预先训练的特征提取模型对各图片提取得到,所述特征提取模型包括文本特征提取子模型、图片特征提取子模型以及分别与所述文本特征提取子模型、所述图片特征提取子模型连接的联合特征提取子模型;
匹配图片确定模块,用于将与所述文本特征信息相匹配的图片确定为所述目标文本的匹配图片。
第三方面,本发明实施例还提供了一种电子设备,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例提供的图片匹配方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例提供的图片匹配方法。
本发明实施例的技术方案,通过利用预先训练好的特征提取模型对获取到的目标文本进行文本特征信息提取,去除了目标文本中大量的冗余信息,降低了对文本信息的计算量,然后将获取到的文本特征信息与预设图库中的各图片的图片特征信息质检的距离信息,通过计算的距离筛选出预设图库中与目标文本最匹配的图片,实现文本自动配图,从而提升文本的观感质量,激发读者的阅读兴趣,提升读者的阅读体验。
附图说明
为了更加清楚地说明本发明示例性实施例的技术方案,下面对描述实施例中所需要用到的附图做一简单介绍。显然,所介绍的附图只是本发明所要描述的一部分实施例的附图,而不是全部的附图,对于本领域普通技术人员,在不付出创造性劳动的前提下,还可以根据这些附图得到其他的附图。
图1是本发明实施例一提供的图片匹配方法的流程示意图;
图2是本发明实施例二提供的图片匹配方法的流程示意图;
图3是本发明实施例三提供的特征提取模型训练方法的流程示意图;
图4是本发明实施例四提供的特征提取模型的结构示意图;
图5是本发明实施例五提供的图片匹配装置的结构示意图;
图6为本发明实施例六提供的电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种图片匹配方法的流程图,本实施例可适用于从预设图库中选取与目标文本匹配图片的情况。该方法可以由图片匹配装置来执行,该装置可以由软件和/或硬件的方式来实现。
在对本发明实施例的技术方案进行介绍之前,先对本发明实施例的应用场景进行示例性的介绍:当读取到一段新闻时,新闻中的图片不仅可以让读者直观、一目了然的了解新闻的主要内容,还可以在很大程度上激发读者的兴趣,提升读者的阅读体验,从而吸引更多的读者。因此图片在新闻报道中有着文字不可替代的作用,为给每篇新闻稿件都配上合适的图片有着极其重要的意义。
在对无图的新闻进行配图时,直接利用长篇的文本信息进行特征信息提取并与提取的图片特征信息进行比对,在实现文本配图的过程并没有考虑新闻稿件内容中存在大量的冗余信息,而是直接对冗余的新闻稿件内容直接进行文本特征提取,容易导致所提取的文本特征中包含大量噪声信息,从而很难准确地匹配到与新闻内容相关的图片,匹配图片的结果极可能不符合新闻主题。
还有的技术方案直接利用有图新闻中的图片和文本的标签和无图新闻的标签进行匹配,但是现有互联网中的图片通常不包含标签,导致可以匹配的图片量少,降低了图片匹配的灵活性。
为了解决上述技术问题,本发明实施例的技术方案,利用互联网构建预设图库,并利用有图文本的图片和对应的文本的特征信息得到训练完成的特征提取模型,采用特征提取模型分别得到待配图文本的目标文本特征信息和预设图库中的各图片的图片特征信息,计算文本特征信息和各图片特征信息的距离信息,并将具有最小距离对应的图片作为目标图片的匹配图片。本实施例的技术方案去掉目标文本和各图片的冗余信息,直接采用文本特征信息和互联网中图片构建的预设图库中的各图片的图片特征信息进行匹配,在降低了信息计算量的同时,也提高了图片匹配的准确性。
如图1所示,该方法具体包括以下步骤:
S110、获取目标文本,基于预先训练的特征提取模型提取目标文本的文本特征信息。
在本发明实施例中,目标文本可以是新闻、故事、简介等没有配图的文本内容,本实施例对目标文本的类型不加以限制。特征提取模型可以分别提取目标文本中的文本特征信息和预设图库中的各图片的图片特征信息。具体的,特征提取模型可以包括文本特征提取子模型、图片特征提取子模型以及分别与文本特征提取子模型、图片特征提取子模型连接的联合特征提取子模型。其中,联合特征提取子模型可以分别将文本特征信息和图片特征信息映射到更高维度的空间,以实现更加准确的对文本特征信息和图片特征信息进行提取。
具体的,首先将目标文本输入至特征提取模型中的文本特征提取子模型,得到预设维度的文本特征信息,以去除目标文本中与文本特征提取无关的冗余信息,然后将预设维度的文本特征信息输入至联合特征提取子模型得到更高维度的文本特征信息,以实现更加精准的提取目标文本的文本特征信息。
S120、将文本特征信息与预设图库中各图片的图片特征信息进行匹配,其中,各图片的图片特征信息基于预先训练的特征提取模型对各图片提取得到。
其中,预设图库可以是分别存储各图片和各图片的图片特征信息的文件数据库。具体的,各图片可以是从互联网中下载并保存到预设图库的预设位置的各类型的图片,例如:图片的类型可以包括但不限于娱乐类、时政类、军事类、教育类、科技类、经济类、体育类、旅游类、文化类和社会类等类型。可选的,可以为预先设置各图片的唯一标识,该标识可以是但不限于各图片的名称、编号或者由数字、字母和字符中的至少一项形成的字符串等。将各相同类别的图片的标识设置为关联标识,方便将各相同类别的图片进行关联存储;还可以将各图片的图片特征信息的标识设置为与各图片相对应的标识,并在预设图库中进行对应存储,方便快速确定任意图片特征信息对应的图片的路径,实现快速获取目标文本的匹配图片。
具体的,为了清楚的介绍预设图库中的各图片的图片特征信息的提取方法,示例性的以其中一张图片为例进行介绍:首先将预设图库中的任一图片输入至特征提取模型中的图片特征提取子模型,得到预设维度的图片特征信息,然后将预设维度的图片特征信息输入至联合特征提取子模型得到更高维度的图片特征信息,以实现更加精准的提取图片的图片特征信息,然后基于此方法提取预设图库中的各图片的图片特征信息。
为了实现方便快速的预设图库中的图片和图片特征信息的更新,本发明实施例的技术方案在上述技术方案的基础上,在预设间隔时间将预设图库中的各图片的标识和各图片特征信息的标识进行成对匹配,当确定有未成对的图片时,采用上述实施例的方法提取图片的图片特征信息,并进行对应的存储,以实现更新预设图库中的各图片的图片特征信息,增加图片匹配的灵活性;当确定有未成对的图片特征信息时,说明预设图库中已经不存在该图片特征信息对应的图片,相应的也删除该图片特征信息,以节省数据库的存储空间,同时减小了距离信息计算时的计算量。
可选的,在将文本特征信息与预设图库中各图片的图片特征信息进行匹配之前,分别确定各图片的图片特征信息与文本特征信息的距离信息。具体的,可以是采用下述计算公式计算目标文本的文本特征信息与各图片的图片特征信息之间的欧式距离,以确定各图片的图片特征信息与文本特征信息的距离信息。
Figure BDA0002860736280000071
其中,其中Ftext表示目标文本的文本特征信息,Fimg_i表示第i个图片的图片特征信息;m表示图片特征信息的第m位数。
S130、将与文本特征信息相匹配的图片确定为目标文本的匹配图片。
可选的,分别确定各图片的图片特征信息与文本特征信息的距离信息,并将满足预设条件的图片特征信息对应的图片作为当前的文本特征信息的目标文本的匹配图片。其中,预设条件可以是确定各图片的图片特征信息与文本特征信息的最小距离信息。具体的,确定各图片特征信息与文本特征信息之间的最小距离信息,将最小的距离信息对应的图片确定为目标文本的匹配图片。
本发明实施例的技术方案,通过利用预先训练好的特征提取模型对获取到的目标文本进行文本特征信息提取,去除了目标文本中大量的冗余信息,降低了对文本信息的计算量,然后将获取到的文本特征信息与预设图库中的各图片的图片特征信息质检的距离信息,通过计算的距离筛选出预设图库中与目标文本最匹配的图片,实现文本自动配图,从而提升文本的观感质量,激发读者的阅读兴趣,提升读者的阅读体验。
实施例二
图2为本发明实施例二提供的一种图片匹配方法的流程图,本实施例在上述各实施例的基础上,对步骤“基于预先训练的特征提取模型提取目标文本的文本特征信息”进行了进一步的细化。可选的,基于预先训练的特征提取模型提取目标文本的文本特征信息,包括:确定目标文本中的文本事件信息,将文本事件信息输入至预先训练的特征提取模型的文本特征提取子模型,得到联合特征提取子模型输出的文本特征信息,从而实现对目标内容中的文本特征的提取,去除了目标文本中大量的冗余信息,降低了对文本信息的计算量,进一步的确定与目标内容更匹配的图片,提高了匹配效率。其中与上述各实施例相同或相应的术语的解释在此不再赘述。
参见图2,本实施例提供的图片匹配方法包括:
S210、获取目标文本,并确定目标文本中的文本事件信息。
在本发明实施例中,目标文本的文本事件信息可以是目标文本的文本摘要信息中每句话的主语信息、谓语信息和宾语信息。目标文本的文本摘要信息可以是去掉目标文本中的冗余信息的文本内容。
具体的,采用摘要提取算法提取目标文本中的文本摘要信息,以去除目标文本中的与特征信息无关的文本信息。示例性的,摘要提取算法可以是TextRank算法,采用下述表达式对目标文本NewN的摘要进行提取,得到文本摘要信息textabs
textabs=TextRank(text)
在提取的文本摘要信息中仍然会存在一定的冗余信息,包括语气助词、连词等内容,为了进一步的去掉摘要信息中的冗余信息,采用事件抽取算法抽取文本摘要信息中的文本事件信息,更加有利于提取到目标文本的文本特征信息。具体的,事件提取算法可以是DMCNN算法,采用下述表达式对文本摘要信息textabs进行事件信息的抽取,得到目标文本中的文本事件信息textevent
textevent=DMCNN(textabs)
其中,抽取的文本事件信息的表达式为:
textevent=<<textsub1,textpred1,textobj1>,<…>,<textsubN,textpredN,textobjN>>
具体的,对提取的文本摘要信息中的每句话都提取一个事件信息,每句话所提取的文本事件信息都包括该句话的主语、谓语和宾语。在textevent中,N为提取的文本摘要信息的句段数量,textsub表示抽取句段中的主语信息,textpred为抽取句段内容中的谓语信息,textobj则表示的是抽取句段内容中的宾语信息。
S220、将文本事件信息输入至预先训练的特征提取模型的文本特征提取子模型,得到联合特征提取子模型输出的文本特征信息。
可选的,文本特征提取子模型包括文本特征提取模块和至少一个第一全连接模块,文本特征提取模块用于提取目标文本的第一维度的第一特征信息,至少一个第一全连接模块用于基于第一特征信息提取第二维度的第二特征信息。
其中,第一特征信息可以是经过文本特征提取模块之后的文本特征信息,第一维度可以是经过文本特征提取模块之后的文本特征信息的维度,第二特征信息可以是经过第一全连接模块之后的文本特征信息,第二维度可以是经过第一全连接模块之后的文本特征信息的维度,第一全连接模块可以是文本全连接模块,用于对文本特征信息进行预设维度的转换。
采用文本特征提取模块提取目标文本的文本事件信息的第一维度的第一特征信息,具体的,文本特征提取模块中可以采用TextCNN模型进行提取。示例性的,采用下述公式提取文本事件信息textevent中的文本特征,得到预设维度(例如300维度)的文本特征信息ftext
ftext=TextCNN(textevent)
为了可以将文本特征信息和图片特征信息可以进行匹配,需要将文本特征信息和图片特征信息的维度保持相等。可以采用文本全连接模块MFCtext对上述实施例提取到的文本特征信息进行维度的转换。其中,文本全连接模块的数量为至少一个,即可以为一个,也可以为多个,至少一个全连接模块可以更准确的使文本特征信息得到预设的维度。
具体的,可以采用下述公式,将300维度的文本特征信息ftext转换为2048维度的文本特征信息fFCtext,以使文本特征信息和图片特征信息的维度保持相等。
fFCtext=MFCtext(ftext)
S230、将图片输入至预先训练的特征提取模型的图片特征提取子模型,得到联合特征提取子模型输出的图片特征信息。
具体的,图片特征提取子模型包括图片特征提取模块和至少一个第二全连接模块,其中,图片特征提取模块用于提取图片的第三维度的第三特征信息,至少一个第二全连接模块用于基于第三特征信息提取第四维度的第四特征信息。
其中,第三特征信息可以是经过图片特征提取模块之后的图片特征信息,第三维度可以是经过图片特征提取模块之后的图片特征信息的维度,第四特征信息可以是经过全连接模块之后的图片特征信息,第四维度可以是经过全连接模块之后的图片特征信息的维度,第三全连接模块可以是图片全连接模块,用于对图片特征信息进行预设维度的转换,第二维度和第四维度数量相等,以使文本特征信息可以和图片特征信息进行匹配。
采用图片特征提取模块提取预设图库中的各图片的第三维度的第三特征信息,具体的,图片特征提取模块中可以采用ResNet模型提取图片中的图片特征,得到预设维度(例如4096维度)的图片特征信息fimg
进一步地,采用图片全连接模块MFCimg对上述实施例提取到的图片特征信息进行维度的转换。具体的,可以采用下述公式,将4096维度的图片特征信息fimg转换为2048维度的图片特征信息fFCimg,以使文本特征信息和图片特征信息的维度保持相等。其中,图片全连接模块的数量为至少一个,即可以为一个,也可以为多个,至少一个全连接模块可以更准确的使图片特征信息得到预设的维度。
fFCimg=MFCimg(fimg)
在上述实施例的基础上,采用联合特征提取子模型将文本特征信息和图片特征信息映射到更高维度的空间中,以获得更加充分的文本特征信息和图片特征信息。具体的,采用下述公式将2048维的图像特征信息fFCimg和文本特征信息fFCtext输入到联合特征提取子模型Munion,分别提取1024维的图像特征信息Fimg和文本事件特征信息Ftext,使得图像特征信息和文本特征信息可以映射到同一高维空间中。
Fimg=Munion(fFCimg)
Ftext=Munion(fFCtext)
S240、将所述文本特征信息与预设图库中各图片的图片特征信息进行匹配。
S250、将与文本特征信息相匹配的图片确定为目标文本的匹配图片。
本实施例的技术方案,通过利用文本特征提取模块中的摘要提取子模块对目标文本的文本内容进行摘要信息的提取,然后进一步通过事件抽取子模块对目标文本的摘要信息进行事件信息的抽取,其中,事件抽取子模块主要抽取摘要事件中的主谓宾事件,然后利用全连接模块提取目标内容的文本事件的特征信息,将提取的文本特征信息输入到联合模型中提取更高层维度的文字特征信息,最后计算文本事件特征信息与相同维度的各图片特征信息之间的距离信息,通过计算的距离筛选出预设图库中与目标内容最匹配的图片,实现文本内容自动配图,从而提升文本的观感质量,激发读者的阅读兴趣,提升读者的阅读体验。
实施例三
图3为本发明实施例三提供的特征匹配模型的训练方法的流程示意图。本发明实施例为上述各实施例的可选实施例,本发明实施例主要介绍了上述各实施例中涉及的特征提取模型的训练方法步骤,其中与上述各实施例相同或相应的术语的解释在此不再赘述。
具体的如图3,本实施例提供的特征匹配模型的训练方法包括:
S310、获取训练样本,其中,训练样本包括文本与图片相匹配的正样本和文本与图片不匹配的负样本。
在本发明实施例中,获取有配图的文本内容,并将构建的成对的文本text和图片img作为特征匹配模型的训练集。其中,训练集的数据表示形式可以是:
datatrain={(text1,img1),(text2,img2),...,(textn,imgn)}
其中,为训练样本总数量,该训练样本中,将文本和图片相匹配的文本作为正样本,将文本和图片不匹配的样本,作为负样本,利用正样本和负样本对特征提取模型进行训练,并得到训练完成的特征提取模型。
S320、分别将训练样本中的文本与图片输入至待训练的特征提取模型中的文本特征提取子模型和图片特征提取子模型,获取联合特征提取子模型输出的文本训练特征信息和图片训练特征信息。
具体的,对分别将训练样本中的文本与图片输入至待训练的特征提取模型中的文本特征提取子模型和图片特征提取子模型,获取联合特征提取子模型输出的文本训练特征信息和图片训练特征信息步骤在上述实施例中已进行详细的解释,本实施例在此不再重复赘述。
S330、将文本训练特征信息和图片训练特征信息输入至分类模型中,输出训练样本中的文本与图片的匹配分类结果。
具体的,利用提取的1024维图片特征信息Fimg_i(表示提取的第i个图片特征信息)和文本特征信息Ftext_j(表示提取的第j个文本特征信息)输入至分类模型进行分类训练,训练过程中同一有图文本中的图片特征信息和文本特征信息具有相同的标签,即当i=j时,表示图片和文本来自同一条有图文本则是匹配的,因此具有相同的标签;当i≠j时,表示图片和文本不是来自同一条有图文本则是不匹配,因此具有不相同的标签。具体的,将训练样本熟读至分类模型,并获取模型输出的分类结果和训练匹配标签。
S340、根据匹配分类结果和训练样本的匹配标签,以及文本训练特征信息和图片训练特征信息生成损失函数,基于损失函数对待训练的特征提取模型进行参数调节。
在本发明实施例中,损失函数包括特征损失函数和标签损失函数。具体的,在模型训练过程中,基于训练集中的训练样本生成训练中的特征匹配模型的损失函数,本发明实施例中的损失函数的表达式如下所示:
Figure BDA0002860736280000141
其中,n为训练数据集的数量,||·||F是对矩阵进行F-范数计算,P是线性分类器的投影矩阵,L是训练集的真实标签。基于该损失函数对待训练的特征提取模型进行参数调节。
S350、当特征提取模型的训练过程满足训练停止条件,得到训练完成的特征提取模型。
具体的,基于上述实施例的损失函数对训练中的特征匹配模型进行重复训练,直到模型在训练样本中收敛,即模型的损失值趋于零或者长时间趋于稳定不再随着训练次数的增加而改变,确定此时的特征提取模型满足训练停止条件,即完成模型训练,得到训练完成的特征提取模型。
本发明实施例提供了特征匹配模型的训练方法,本发明实施例的技术方案通过利用预先训练好的特征提取模型对获取到的目标文本进行文本特征信息提取,去除了目标文本中大量的冗余信息,降低了对文本信息的计算量,然后将获取到的文本特征信息与预设图库中的各图片的图片特征信息质检的距离信息,通过计算的距离筛选出预设图库中与目标文本最匹配的图片,实现文本自动配图,从而提升文本的观感质量,激发读者的阅读兴趣,提升读者的阅读体验。
实施例四
本发明实施例作为上述实施例的可选实施例,本发明实施例主要介绍了上述实施例的中涉及的特征提取模型的具体模型结构,该结构与上述各实施例的方法属于同一个发明构思,在本实施例中未详尽描述的细节内容,可以参考上述各实施例。
具体的如图4,本实施例提供的特征匹配模型的具体结构包括:
文本特征提取子模型410、图片特征提取子模型420以及分别与文本特征提取子模型410、图片特征提取子模型420连接的联合特征提取子模型430。
可选的,特征匹配模型主要用于将所述文本事件信息和预设图库中的图片分别输入至预先训练的特征提取模型的文本特征提取子模型410和图片特征提取子模型420,得到所述联合特征提取子模型430输出的文本特征信息和图片特征信息。
其中,文本特征提取子模型410包括文本特征提取模块411和至少一个第一全连接模块412。具体的,文本特征提取模块411用于提取目标文本的第一维度的第一特征信息,例如可以是经过文本特征提取模块411之后的文本特征信息。至少一个第一全连接模块412用于基于第一特征信息提取第二维度的第二特征信息,例如可以是对经过文本特征提取模块411之后的文本特征信息进行维度的转换,将300维度的文本特征信息转换为2048维度的文本特征信息,使文本特征信息和图片特征信息的维度保持相等。
其中,图片特征提取子模型420包括图片特征提取模块421和至少一个第二全连接模块422。具体的,图片特征提取模块421用于提取图片的第三维度的第三特征信息,例如,可以是经过图片特征提取模块421之后的图片特征信息。至少一个第二全连接模块422用于基于第三特征信息提取第四维度的第四特征信息,例如可以是对经过图片特征提取模块421之后的图片特征信息进行进一步的特征处理,将4096维度的图片特征信息转换为2048维度的图片特征信息,使文本特征信息和图片特征信息的维度保持相等。
在上述实施例的基础上,采用联合特征提取子模型430用于将文本特征信息和图片特征信息映射到更高维度的空间中,以获得更加充分的文本特征信息和图片特征信息。
本发明实施例提供的特征匹配模型的结果包括文本特征提取子模型、图片特征提取子模型以及分别与文本特征提取子模型、图片特征提取子模型420连接的联合特征提取子模型,通过利用预先训练好的特征提取模型对获取到的目标文本进行文本特征信息提取,去除了目标文本中大量的冗余信息,降低了对文本信息的计算量,然后将获取到的文本特征信息与预设图库中的各图片的图片特征信息质检的距离信息,通过计算的距离筛选出预设图库中与目标文本最匹配的图片,实现文本自动配图,从而提升文本的观感质量,激发读者的阅读兴趣,提升读者的阅读体验。
实施例五
图5为本发明实施例四提供的图片匹配装置的结构示意图,该装置与上述各实施例的图片匹配方法属于同一个发明构思,在图片匹配装置的实施例中未详尽描述的细节内容,可以参考上述图片匹配方法的实施例。本实施例可适用于从预设图库中选取与目标文本匹配图片的情况。
具体的,该图片匹配装置的结构包括:文本特征信息获取模块510、文本特征信息匹配模块520和匹配图片确定模块530;其中,
文本特征信息获取模块510,用于获取目标文本,基于预先训练的特征提取模型提取所述目标文本的文本特征信息。
文本特征信息匹配模块520,用于将所述文本特征信息与预设图库中各图片的图片特征信息进行匹配,其中,所述各图片的图片特征信息基于所述预先训练的特征提取模型对各图片提取得到,所述特征提取模型包括文本特征提取子模型、图片特征提取子模型以及分别与所述文本特征提取子模型、所述图片特征提取子模型连接的联合特征提取子模型。
匹配图片确定模块530,用于将与所述文本特征信息相匹配的图片确定为所述目标文本的匹配图片。
本发明实施例的技术方案通过利用预先训练好的特征提取模型对获取到的目标文本进行文本特征信息提取,去除了目标文本中大量的冗余信息,降低了对文本信息的计算量,然后将获取到的文本特征信息与预设图库中的各图片的图片特征信息质检的距离信息,通过计算的距离筛选出预设图库中与目标文本最匹配的图片,实现文本自动配图,从而提升文本的观感质量,激发读者的阅读兴趣,提升读者的阅读体验。
在上述技术方案的基础上,文本特征信息获取模块510,包括:
文本特征信息获取单元,用于确定所述目标文本中的文本事件信息,将所述文本事件信息输入至预先训练的特征提取模型的文本特征提取子模型,得到所述联合特征提取子模型输出的文本特征信息。
在上述技术方案的基础上,所述文本特征提取子模型包括:文本特征提取模块和至少一个第一全连接模块,所述文本特征提取模块用于提取所述目标文本的第一维度的第一特征信息,所述至少一个第一全连接模块用于基于所述第一特征信息提取第二维度的第二特征信息。
在上述技术方案的基础上,图片特征提取子模型包括:图片特征提取模块和至少一个第二全连接模块,其中,所述图片特征提取模块用于提取所述图片的第三维度的第三特征信息,所述至少一个第二全连接模块用于基于所述第三特征信息提取第四维度的第四特征信息。
在上述技术方案的基础上,特征提取模型的训练过程包括:
获取训练样本,其中,所述训练样本包括文本与图片相匹配的正样本和文本与图片不匹配的负样本;
分别将训练样本中的文本与图片输入至待训练的特征提取模型中的文本特征提取子模型和所述图片特征提取子模型,获取所述联合特征提取子模型输出的文本训练特征信息和图片训练特征信息;
将所述文本训练特征信息和图片训练特征信息输入至分类模型中,输出所述训练样本中的文本与图片的匹配分类结果;
根据所述匹配分类结果和所述训练样本的匹配标签,以及所述文本训练特征信息和图片训练特征信息生成损失函数,基于所述损失函数对所述待训练的特征提取模型进行参数调节;
当所述特征提取模型的训练过程满足训练停止条件,得到训练完成的特征提取模型。
在上述技术方案的基础上,损失函数包括特征损失函数和标签损失函数。
在上述技术方案的基础上,匹配图片确定模块530,包括:
距离信息确定单元,用于分别确定各图片的图片特征信息与所述文本特征信息的距离信息。
相应的,所述匹配图片确定模块530,包括:
匹配图片确定单元,用于将最小的距离信息对应的图片确定为所述目标文本的匹配图片。
本发明实施例所提供的图片匹配装置可执行本发明任意实施例所提供的图片匹配方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,上述图片匹配装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
实施例六
图6为本发明实施例六提供的一种电子设备的结构示意图。图6示出了适于用来实现本发明实施方式的示例性电子设备12的框图。图6显示的电子设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,电子设备12以通用计算电子设备的形式表现。电子设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该电子设备12交互的设备通信,和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图6所示,网络适配器20通过总线18与电子设备12的其它模块通信。应当明白,尽管图6中未示出,可以结合电子设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及样本数据获取,例如实现本发实施例所提供的一种图片匹配方法步骤,图片匹配方法包括:
获取目标文本,基于预先训练的特征提取模型提取所述目标文本的文本特征信息;
将所述文本特征信息与预设图库中各图片的图片特征信息进行匹配,其中,所述各图片的图片特征信息基于所述预先训练的特征提取模型对各图片提取得到,所述特征提取模型包括文本特征提取子模型、图片特征提取子模型以及分别与所述文本特征提取子模型、所述图片特征提取子模型连接的联合特征提取子模型;
将与所述文本特征信息相匹配的图片确定为所述目标文本的匹配图片。
当然,本领域技术人员可以理解,处理器还可以实现本发明任意实施例所提供的样本数据获取方法的技术方案。
实施例七
本实施例七提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现例如实现本发实施例所提供的一种图片匹配方法步骤,图片匹配方法包括:
获取目标文本,基于预先训练的特征提取模型提取所述目标文本的文本特征信息;
将所述文本特征信息与预设图库中各图片的图片特征信息进行匹配,其中,所述各图片的图片特征信息基于所述预先训练的特征提取模型对各图片提取得到,所述特征提取模型包括文本特征提取子模型、图片特征提取子模型以及分别与所述文本特征提取子模型、所述图片特征提取子模型连接的联合特征提取子模型;
将与所述文本特征信息相匹配的图片确定为所述目标文本的匹配图片。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种图片匹配方法,其特征在于,包括:
获取目标文本,基于预先训练的特征提取模型提取所述目标文本的文本特征信息;
将所述文本特征信息与预设图库中各图片的图片特征信息进行匹配,其中,所述各图片的图片特征信息基于所述预先训练的特征提取模型对各图片提取得到,所述特征提取模型包括文本特征提取子模型、图片特征提取子模型以及分别与所述文本特征提取子模型、所述图片特征提取子模型连接的联合特征提取子模型;
将与所述文本特征信息相匹配的图片确定为所述目标文本的匹配图片。
2.根据权利要求1所述的方法,其特征在于,所述基于预先训练的特征提取模型提取所述目标文本的文本特征信息,包括:
确定所述目标文本中的文本事件信息,将所述文本事件信息输入至预先训练的特征提取模型的文本特征提取子模型,得到所述联合特征提取子模型输出的文本特征信息。
3.根据权利要求1所述的方法,其特征在于,所述文本特征提取子模型包括:文本特征提取模块和至少一个第一全连接模块,所述文本特征提取模块用于提取所述目标文本的第一维度的第一特征信息,所述至少一个第一全连接模块用于基于所述第一特征信息提取第二维度的第二特征信息。
4.根据权利要求1所述的方法,其特征在于,所述图片特征提取子模型包括:图片特征提取模块和至少一个第二全连接模块,其中,所述图片特征提取模块用于提取所述图片的第三维度的第三特征信息,所述至少一个第二全连接模块用于基于所述第三特征信息提取第四维度的第四特征信息。
5.根据权利要求1所述的方法,其特征在于,所述特征提取模型的训练过程包括:
获取训练样本,其中,所述训练样本包括文本与图片相匹配的正样本和文本与图片不匹配的负样本;
分别将训练样本中的文本与图片输入至待训练的特征提取模型中的文本特征提取子模型和所述图片特征提取子模型,获取所述联合特征提取子模型输出的文本训练特征信息和图片训练特征信息;
将所述文本训练特征信息和图片训练特征信息输入至分类模型中,输出所述训练样本中的文本与图片的匹配分类结果;
根据所述匹配分类结果和所述训练样本的匹配标签,以及所述文本训练特征信息和图片训练特征信息生成损失函数,基于所述损失函数对所述待训练的特征提取模型进行参数调节;
当所述特征提取模型的训练过程满足训练停止条件,得到训练完成的特征提取模型。
6.根据权利要求5所述的方法,其特征在于,所述损失函数包括特征损失函数和标签损失函数。
7.根据权利要求1所述的方法,其特征在于,所述将所述文本特征信息与预设图库中各图片的图片特征信息进行匹配,包括:
分别确定各图片的图片特征信息与所述文本特征信息的距离信息;
相应的,所述将与所述文本特征信息相匹配的图片确定为所述目标文本的匹配图片,包括:
将最小的距离信息对应的图片确定为所述目标文本的匹配图片。
8.一种图片匹配装置,其特征在于,包括:
文本特征信息获取模块,用于获取目标文本,基于预先训练的特征提取模型提取所述目标文本的文本特征信息;
文本特征信息匹配模块,用于将所述文本特征信息与预设图库中各图片的图片特征信息进行匹配,其中,所述各图片的图片特征信息基于所述预先训练的特征提取模型对各图片提取得到,所述特征提取模型包括文本特征提取子模型、图片特征提取子模型以及分别与所述文本特征提取子模型、所述图片特征提取子模型连接的联合特征提取子模型;
匹配图片确定模块,用于将与所述文本特征信息相匹配的图片确定为所述目标文本的匹配图片。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的图片匹配方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的图片匹配方法。
CN202011561238.3A 2020-12-25 2020-12-25 图片匹配方法、装置、电子设备以及存储介质 Pending CN112650867A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011561238.3A CN112650867A (zh) 2020-12-25 2020-12-25 图片匹配方法、装置、电子设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011561238.3A CN112650867A (zh) 2020-12-25 2020-12-25 图片匹配方法、装置、电子设备以及存储介质

Publications (1)

Publication Number Publication Date
CN112650867A true CN112650867A (zh) 2021-04-13

Family

ID=75362847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011561238.3A Pending CN112650867A (zh) 2020-12-25 2020-12-25 图片匹配方法、装置、电子设备以及存储介质

Country Status (1)

Country Link
CN (1) CN112650867A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113762508A (zh) * 2021-09-06 2021-12-07 京东鲲鹏(江苏)科技有限公司 一种图像分类网络模型的训练方法、装置、设备和介质
CN113779960A (zh) * 2021-09-26 2021-12-10 挂号网(杭州)科技有限公司 文本特征确定方法、装置、设备及介质
CN113836333A (zh) * 2021-09-18 2021-12-24 北京百度网讯科技有限公司 图文匹配模型的训练方法、实现图文检索的方法、装置
CN113947700A (zh) * 2021-10-18 2022-01-18 北京百度网讯科技有限公司 模型确定方法、装置、电子设备和存储器

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777402A (zh) * 2017-03-10 2017-05-31 山东师范大学 一种基于稀疏神经网络的图像检索文本方法
CN108288067A (zh) * 2017-09-12 2018-07-17 腾讯科技(深圳)有限公司 图像文本匹配模型的训练方法、双向搜索方法及相关装置
CN110163220A (zh) * 2019-04-26 2019-08-23 腾讯科技(深圳)有限公司 图片特征提取模型训练方法、装置和计算机设备
CN111274853A (zh) * 2018-12-05 2020-06-12 北京京东尚科信息技术有限公司 图像处理方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777402A (zh) * 2017-03-10 2017-05-31 山东师范大学 一种基于稀疏神经网络的图像检索文本方法
CN108288067A (zh) * 2017-09-12 2018-07-17 腾讯科技(深圳)有限公司 图像文本匹配模型的训练方法、双向搜索方法及相关装置
CN111274853A (zh) * 2018-12-05 2020-06-12 北京京东尚科信息技术有限公司 图像处理方法和装置
CN110163220A (zh) * 2019-04-26 2019-08-23 腾讯科技(深圳)有限公司 图片特征提取模型训练方法、装置和计算机设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113762508A (zh) * 2021-09-06 2021-12-07 京东鲲鹏(江苏)科技有限公司 一种图像分类网络模型的训练方法、装置、设备和介质
CN113836333A (zh) * 2021-09-18 2021-12-24 北京百度网讯科技有限公司 图文匹配模型的训练方法、实现图文检索的方法、装置
CN113836333B (zh) * 2021-09-18 2024-01-16 北京百度网讯科技有限公司 图文匹配模型的训练方法、实现图文检索的方法、装置
CN113779960A (zh) * 2021-09-26 2021-12-10 挂号网(杭州)科技有限公司 文本特征确定方法、装置、设备及介质
CN113947700A (zh) * 2021-10-18 2022-01-18 北京百度网讯科技有限公司 模型确定方法、装置、电子设备和存储器

Similar Documents

Publication Publication Date Title
CN112650867A (zh) 图片匹配方法、装置、电子设备以及存储介质
CN110781347A (zh) 一种视频处理方法、装置、设备以及可读存储介质
CN110232340B (zh) 建立视频分类模型以及视频分类的方法、装置
CN109919244B (zh) 用于生成场景识别模型的方法和装置
CN107909088B (zh) 获取训练样本的方法、装置、设备和计算机存储介质
US11822568B2 (en) Data processing method, electronic equipment and storage medium
CN113870395A (zh) 动画视频生成方法、装置、设备及存储介质
CN112765387A (zh) 图像检索方法、图像检索装置和电子设备
CN113360768A (zh) 基于用户画像的产品推荐方法、装置、设备及存储介质
CN109657127B (zh) 一种答案获取方法、装置、服务器及存储介质
CN113254814A (zh) 网络课程视频打标签方法、装置、电子设备及介质
CN113821602A (zh) 基于图文聊天记录的自动答疑方法、装置、设备及介质
US11803796B2 (en) System, method, electronic device, and storage medium for identifying risk event based on social information
CN113609866A (zh) 文本标记方法、装置、设备及存储介质
CN111881900B (zh) 语料生成、翻译模型训练、翻译方法、装置、设备及介质
CN111460224B (zh) 评论数据的质量标注方法、装置、设备及存储介质
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN112948526A (zh) 用户画像的生成方法及装置、电子设备、存储介质
CN114943306A (zh) 意图分类方法、装置、设备及存储介质
CN115269781A (zh) 模态关联度预测方法、装置、设备、存储介质及程序产品
CN114780688A (zh) 基于规则匹配的文本质检方法、装置、设备及存储介质
CN113627186A (zh) 基于人工智能的实体关系检测方法及相关设备
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN112115717B (zh) 一种数据处理方法、装置、设备及可读存储介质
CN108932326B (zh) 一种实例扩展方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination