CN114139005A - 一种图片关键词确定方法及装置 - Google Patents

一种图片关键词确定方法及装置 Download PDF

Info

Publication number
CN114139005A
CN114139005A CN202010915712.1A CN202010915712A CN114139005A CN 114139005 A CN114139005 A CN 114139005A CN 202010915712 A CN202010915712 A CN 202010915712A CN 114139005 A CN114139005 A CN 114139005A
Authority
CN
China
Prior art keywords
candidate
candidate words
query graph
word
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010915712.1A
Other languages
English (en)
Inventor
苏涛
谢泽华
周泽南
苏雪峰
许静芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN202010915712.1A priority Critical patent/CN114139005A/zh
Publication of CN114139005A publication Critical patent/CN114139005A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种图片关键词确定方法及装置,该方法包括:首先获取包含查询图的至少一篇文档,提取文档中的候选词,之后确定候选词与查询图的图文相似度,根据候选词在文档中的统计信息和候选词与查询图的图文相似度,对候选词进行排序,最终,将排序最高的候选词作为查询图对应的关键词。在本发明实施例提供的方法中,从多篇文档中提取候选词,根据候选词在文档中的统计信息与候选词与查询图的图文相似度对候选词进行排序,根据统计信息与图文相似度两个方面对候选词进行排序,将排序最高的候选词作为关键词,既保证了关键词与文档的相关度较高,也可以保证关键词与查询图的关联程度较高,使得确定的关键词可以准确的反映查询图的内容。

Description

一种图片关键词确定方法及装置
技术领域
本发明涉及互联网技术领域,具体涉及一种图片关键词确定方法及装置。
背景技术
图片关键词可以用于表示该图片内容所对应的关键信息,用户在不确定图片内容或者是需要根据图片获取图片内容的相关信息时,可以通过确定图片对应的图片关键词来确定与图片内容对应的信息或者是获取与图片内容相关的信息。
现有的对于图片关键词的确定方法,是从包含图片的文档中根据词汇的统计信息选取词汇作为图片关键词,但是该种确定图片关键词的方式准确度较低,不能正确地表示图片的内容。
发明内容
有鉴于此,本发明实施例提供一种图片关键词确定方法及装置,以解决现有技术中确定的图片关键词不能准确地表示图片内容的问题。
为解决上述问题,本发明实施例提供的技术方案如下:
一种图片关键词确定方法,所述方法包括:
获取包含查询图的至少一篇文档;
提取所述文档中的候选词;
确定所述候选词与所述查询图的图文相似度;
利用所述候选词在所述文档中的统计信息以及所述候选词与所述查询图的图文相似度,对各个所述候选词进行排序;
选择排序最高的候选词作为所述查询图对应的关键词。
在一种可能的实现方式中,所述提取所述文档中的候选词,包括:
对所述文档进行分词,将得到的分词进行合并生成合并词;
如果所述合并词在预先建立的候选词词表中,将所述合并词确定为候选词。
在一种可能的实现方式中,所述确定所述候选词与所述查询图的图文相似度,包括:
将所述查询图输入图片关键词特征提取模型,获得所述图片关键词特征模型输出的所述查询图对应的关键词文本特征,所述图片关键词特征模型是利用待训练查询图以及所述待训练查询图对应的关键词文本特征训练得到的;
获取所述候选词的文本特征;
计算所述候选词的文本特征与所述查询图对应的关键词文本特征之间的相关性,作为所述候选词与所述查询图的图文相似度;
或者,
将所述候选词与所述查询图输入图文相似度确定模型,获得所述图文相似度确定模型输出的所述候选词与所述查询图的图文相似度,所述图文相似度确定模型是利用待训练查询图与待训练候选词的图文相似度训练得到的。
在一种可能的实现方式中,所述利用所述候选词在所述文档中的统计信息以及所述候选词与所述查询图的图文相似度,对各个所述候选词进行排序,包括:
将利用所述候选词在所述文档中的统计信息以及所述候选词与所述查询图的图文相似度输入第一候选词特征评价模型,得到所述第一候选词特征评价模型输出的所述候选词的评价得分,所述第一候选词特征评价模型是根据待训练候选词在待训练文档中的统计信息、所述待训练候选词与待训练查询图的图文相似度以及所述待训练候选词的评价得分训练得到的;
利用各个所述候选词的评价得分对各个所述候选词进行排序。
在一种可能的实现方式中,所述方法还包括:
获取所述候选词对应的附加特征,所述候选词的附加特征为所述候选词对应的文档所属网站的特征和/或所述候选词对应的类别信息;所述候选词对应的文档所属网站的特征是根据所述候选词对应的文档所属网站的访问量确定的。
在一种可能的实现方式中,所述利用所述候选词在所述文档中的统计信息以及所述候选词与所述查询图的图文相似度,对各个所述候选词进行排序,包括:
利用所述候选词在所述文档中的统计信息、所述候选词与所述查询图的图文相似度以及所述候选词的附加特征,对各个所述候选词进行排序。
在一种可能的实现方式中,所述利用所述候选词在所述文档中的统计信息、所述候选词与所述查询图的图文相似度以及所述候选词的附加特征,对各个所述候选词进行排序,包括:
将所述候选词在所述文档中的统计信息、所述候选词与所述查询图的图文相似度以及所述候选词的附加特征输入第二候选词特征评价模型,得到所述第二候选词特征评价模型输出的所述候选词的评价得分,所述第二候选词特征评价模型是根据待训练候选词在待训练文档的统计信息、所述待训练候选词与待训练查询图的图文相似度、所述待训练候选词的附加特征以及所述待训练候选词的评价得分训练得到的,所述待训练候选词的附加特征为所述待训练候选词对应的文档所属网站的特征和/或所述待训练候选词对应的类别信息;
利用各个所述候选词的评价得分对各个所述候选词进行排序。
一种图片关键词确定装置,所述装置包括:
文档获取单元,用于获取包含查询图的至少一篇文档;
候选词提取单元,用于提取所述文档中的候选词;
图文相似度确定单元,用于确定所述候选词与所述查询图的图文相似度;
排序单元,用于利用所述候选词在所述文档中的统计信息以及所述候选词与所述查询图的图文相似度,对各个所述候选词进行排序;
关键词确定单元,用于选择排序最高的候选词作为所述查询图对应的关键词。
在一种可能的实现方式中,所述候选词提取单元,包括:
合并词生成子单元,用于对所述文档进行分词,将得到的分词进行合并生成合并词;
候选词确定子单元,用于如果所述合并词在预先建立的候选词词表中,将所述合并词确定为候选词。
在一种可能的实现方式中,所述图文相似度确定单元,包括:
关键词文本特征获取子单元,用于将所述查询图输入图片关键词特征提取模型,获得所述图片关键词特征模型输出的所述查询图对应的关键词文本特征,所述图片关键词特征模型是利用待训练查询图以及所述待训练查询图对应的关键词文本特征训练得到的;
候选词文本特征获取子单元,用于获取所述候选词的文本特征;
相关性计算子单元,用于计算所述候选词的文本特征与所述查询图对应的关键词文本特征之间的相关性,作为所述候选词与所述查询图的图文相似度;
或者,
所述图文相似度确定单元,具体用于将所述候选词与所述查询图输入图文相似度确定模型,获得所述图文相似度确定模型输出的所述候选词与所述查询图的图文相似度,所述图文相似度确定模型是利用待训练查询图与待训练候选词的图文相似度训练得到的。
在一种可能的实现方式中,所述排序单元,包括:
第一评价得分获取子单元,用于将利用所述候选词在所述文档中的统计信息以及所述候选词与所述查询图的图文相似度输入第一候选词特征评价模型,得到所述第一候选词特征评价模型输出的所述候选词的评价得分,所述第一候选词特征评价模型是根据待训练候选词在待训练文档中的统计信息、所述待训练候选词与待训练查询图的图文相似度以及所述待训练候选词的评价得分训练得到的;
第一排序子单元,用于利用各个所述候选词的评价得分对各个所述候选词进行排序。
在一种可能的实现方式中,所述装置还包括:
附加特征获取单元,用于获取所述候选词对应的附加特征,所述候选词的附加特征为所述候选词对应的文档所属网站的特征和/或所述候选词对应的类别信息;所述候选词对应的文档所属网站的特征是根据所述候选词对应的文档所属网站的访问量确定的。
在一种可能的实现方式中,所述排序单元,具体用于利用所述候选词在所述文档中的统计信息、所述候选词与所述查询图的图文相似度以及所述候选词的附加特征,对各个所述候选词进行排序。
在一种可能的实现方式中,所述排序单元,包括:
第二评价得分获取子单元,用于将所述候选词在所述文档中的统计信息、所述候选词与所述查询图的图文相似度以及所述候选词的附加特征输入第二候选词特征评价模型,得到所述第二候选词特征评价模型输出的所述候选词的评价得分,所述第二候选词特征评价模型是根据待训练候选词在待训练文档中的统计信息、所述待训练候选词与待训练查询图的图文相似度、所述待训练候选词的附加特征以及所述待训练候选词的评价得分训练得到的,所述待训练候选词的附加特征为所述待训练候选词对应的文档所属网站的特征和/或所述待训练候选词对应的类别信息;
第二排序子单元,用于利用各个所述候选词的评价得分对各个所述候选词进行排序。
一种用于图片关键词确定的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取包含查询图的至少一篇文档;
提取所述文档中的候选词;
确定所述候选词与所述查询图的图文相似度;
利用所述候选词在所述文档中的统计信息以及所述候选词与所述查询图的图文相似度,对各个所述候选词进行排序;
选择排序最高的候选词作为所述查询图对应的关键词。
一种计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行上述的图片关键词确定方法。
由此可见,本发明实施例具有如下有益效果:
本发明实施例提供的图片关键词确定方法,在获取到查询图之后,首先获取包含查询图的至少一篇文档,提取文档中的候选词,之后确定候选词与查询图的图文相似度,根据候选词在文档中的统计信息以及候选词与查询图的图文相似度,对候选词进行排序,最终,将排序最高的候选词作为查询图对应的关键词。在本发明实施例提供的方法中,从多篇文档中提取候选词,根据候选词在文档中的统计信息以及候选词与查询图的图文相似度对候选词进行排序,使得得到的排序最高的候选词与文档的主题以及与查询图之间的相关度较高。将排序最高的候选词作为关键词,既保证了关键词与文档主题的相关度较高,也可以保证关键词与查询图的关联程度较高,使得确定的关键词可以更加准确的反映查询图的内容。
附图说明
图1为本发明实施例提供的一个查询图的示意图;
图2为本发明实施例提供的示例性应用场景的框架示意图;
图3为本发明实施例提供的一种图片关键词确定方法流程图;
图4为本发明实施例提供的一种确定候选词与查询图的图文相似度的方法;
图5为本发明实施例提供的一种图片关键词确定装置的结构示意图;
图6为本发明实施例提供的客户端的结构示意图;
图7为本发明实施例提供的服务器的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明实施例作进一步详细的说明。
为便于理解本发明实施例提供的技术方案,下面将先对本发明的背景技术进行说明。
发明人在对传统的图片关键词确定方法的研究中发现,传统的图片关键词的确定是根据包含有查询图的文档中词汇的统计信息,对词汇进行提取和关键词的确定。传统的图片关键词的确定先获取包含有查询图的文档,之后利用关键词提取技术,也就是根据词汇的统计信息对文档中的词汇进行排序,将得到的最优的词汇作为图片的关键词。根据统计信息确定关键词的方法仅考虑到词汇与文档主题的相关度,文档主题也许与文档所包含的图片的内容并不相互对应,导致根据统计信息确定的图片的关键词与图片的内容并不相符,图片关键词不够准确。例如,参见图1,该图为本发明实施例提供的一个查询图的示意图,查询图的内容是“歼10战斗机”,对应的包含查询图的文档可能是关于飞行员驾驶歼10战斗机进行飞行训练的相关报道,对获得的文档中的词汇根据词汇的统计信息进行关键词提取后,由于相关的文档报道主题可能是飞行员进行飞行训练,根据统计信息得到的关键词可能为“飞行员”,与查询图中“歼10战斗机”的内容并不相符,得到的图片的关键词不够准确。
基于此,本发明实施例提供了一种图片关键词确定方法,首先获取包含查询图的至少一篇文档,提取文档中的候选词,进一步确定候选词与查询图的图文相似度,然后利用候选词在文档中的统计信息以及与查询图的图文相似度对候选词进行排序。由此得到的排序最高的候选词具有与文档较高的相关度以及与查询图较高的关联程度,将排序最高的候选词选择作为查询图对应的关键词,可以从与文档的相关度和查询图的相关度两个方面确定关键词,使得确定的关键词较为准确,可以正确地表示图片的内容。
为便于理解本发明实施例提供的图片关键词确定方法,下面先结合图2所示的应用场景进行解释和说明。其中,图2为本发明实施例提供的示例性应用场景的框架示意图。
如图2所示,本发明实施例提供的图片关键词确定方法可以应用于服务器20。在实际应用中,服务器20先获取由客户端发送的查询图,根据查询图获取包含查询图的文档,提取文档中的候选词,根据候选词在文档中的统计信息与候选词与查询图的图文相似度,对候选词进行排序,将排序最高的候选词作为关键词,将确定的查询图的关键词发送至客户端10,以便用户获取查询图的相关信息。
本领域技术人员可以理解,图2所示的框架示意图仅是本发明的实施方式可以在其中得以实现的一个示例。本发明实施方式的适用范围不受到该框架任何方面的限制。
需要注意的是,客户端10可以承载于终端,该终端可以是现有的、正在研发的或将来研发的、能够通过任何形式的有线和/或无线连接(例如,Wi-Fi、LAN、蜂窝、同轴电缆等)相互交互的任何用户设备,包括但不限于:现有的、正在研发的或将来研发的智能可穿戴设备、智能手机、非智能手机、平板电脑、膝上型个人计算机、桌面型个人计算机、小型计算机、中型计算机、大型计算机等。本发明的实施方式在此方面不受任何限制。还需要注意的是,本发明实施例中服务器20可以是现有的、正在研发的或将来研发的、能够提供图片关键词查询的设备的一个示例。本发明的实施方式在此方面不受任何限制。
为便于理解本发明实施例提供的技术方案,下面将结合附图对本发明实施例提供的输入方法进行说明。
参见图3,该图为本发明实施例提供的一种图片关键词确定方法流程图。如图3所示,该方法可以包括S301-S305:
S301:获取包含查询图的至少一篇文档。
当用户仅具有图片,需要获取图片的相关信息时,会将图片作为查询图进行相关信息的搜索。在本发明实施例中,查询图可以为用户通过客户端发送的需要确定图片的关键词的图片。例如,用户从网络中获取到没有关键词以及其他相关信息的景区风景图时,可以将该景区风景图作为查询图进行关键词搜索,得到该景区风景图对应的关键词,进而确定该景区风景图对应的地点或者是位置。
在获得查询图之后,可以根据查询图获取包含查询图的至少一篇文档,以便根据文档确定查询图的关键词。可以理解的是,文档中一般包含与文档内容相关的图片,相对应的,图片的关键词可以从文档中进行提取。为了提高获取到的查询图的关键词的准确性,可以根据查询图获取至少一篇文档,从多篇文档中得到的关键词更加具有普遍性,可以避免由一篇文档得到的关键词可能具有的误差,提高确定的关键词的准确性。
本发明实施例中不限定获取包含查询图的文档的方法,可以先获取查询图的图像特征,再根据查询图的图像特征从网络中获取具有该图像特征的图片所在的文档。本发明实施例中不限定文档的种类,可以为包含有查询图的新闻报道、百科资料等。
S302:提取文档中的候选词。
可以理解的是,文档是由较多的词汇组成的,但是,并非是所有的词汇都可以作为查询图的关键词,例如,一些用于语句连接的介词不应作为关键词。则可以将能够作为查询图的关键词的词汇作为候选词,并在确定查询图的关键词之前,先对文档中的候选词进行提取,以便缩小后续确定查询图的关键词的范围,提高确定的关键词的准确度。
本发明实施例中不限定提取候选词的方式,在一种可能的实现方式中,可以根据词汇的词性进行候选词的提取,可以将具有名词属性的词汇提取得到候选词。在另一种可能的实现方式中,可以先建立候选词词表,将文档中属于候选词词表的词确定为候选词。本发明实施例提供了一种提取文档中的候选词的实施方式,请参见下文具体实施方式。
S303:确定候选词与查询图的图文相似度。
候选词具有与查询图的图文相似度,图文相似度可以用于表示候选词与查询图之间的关联程度。当候选词与查询图之间的关联程度较高时,对应的候选词与查询图之间的图文相似度较高;当候选词与查询图之间的关联程度较低时,对应的图文相似度较低。例如,当查询图为玫瑰花时,若候选词为“玫瑰”或者是“花卉”时,对应的图文相似度较高;若候选词为“土壤”或者是“空气”等与图像内容关联程度较低的词汇时,对应的图文相似度较低。
本发明实施例中不限定确定候选词与查询图的图文相似度的方法,可以先根据查询图确定查询图对应的关键词的特征,再与候选词的特征进行比较,得到图文相似度;在另一种可能的实现方式中,可以直接根据候选词与查询图确定候选词与查询图之间的图文相似度。对应于不同的确定图文相似度的方法,本发明实施例提供了两种确定候选词与查询图的图文相似度的实施方式,这些实施方式均将在下文中进行详细介绍。
在本发明实施例中,确定候选词与查询图的图文相似度,以便在进行查询图的关键词的确定时,将候选词与查询图的图文相似度作为确定关键词的参考依据之一,使得确定的关键词具有与查询图较高的图文相似度,可以排除与查询图图文相似度较低的候选词,提高关键词与查询图的关联程度。
S304:利用候选词在文档中的统计信息以及候选词与查询图的图文相似度,对各个候选词进行排序。
候选词在文档中的统计信息可以表示候选词出现在文档中的相关信息,具体的可以包括候选词的词频、词性、逆向文档频率、词长以及分布情况等。可以理解的是,统计信息候选词在文档中的统计信息可以反映候选词与文档的主题之间的相关度,当候选词与文档主题之间的相关度较高时,该候选词可能是查询图对应的关键词。
候选词与查询图的图文相似度可以表示候选词与查询图之间的关联程度,将候选词的图文相似度作为候选词排序的依据之一,可以从候选词与查询图之间的关联程度进行关键词的选择,确保确定的关键词与查询图之间具有较高的关联程度。
将候选词在文档中的统计信息以及候选词与查询图的图文相似度共同作为候选词排序的依据,可以从候选词与文档主题的相关度以及候选词与查询图的关联度两个方面对候选词进行排序,使得根据排序结果得到的关键词可以具有较高的文档主题相关度和查询图的关联程度,更加准确。例如,当查询图为图1所示的歼10战斗机时,将文档中的候选词按照统计信息与候选词与查询图的图文相似度作为候选词排序的依据,得到的排序最高的候选词为“歼10战机”,而并非是仅是统计信息最佳的“飞行员”。
需要说明的是,本发明实施例中不限定利用候选词在文档中的统计信息以及候选词与查询图的图文相似度,对各个候选词进行排序的排序方法,在一种可能的实现方式中,可以分别对候选词在文档中的统计信息以及图文相似度进行评分,根据得到的候选词的分数对候选词进行排序。
在本发明实施例中,利用候选词在文档中的统计信息和候选词与查询图的图文相似度对候选词进行排序,可以从候选词与文档主题的相关度和查询图的关联程度两个方面对候选词进行排序,使得根据排序结果确定的关键词既与文档主题的相关度较高,又与查询图的关联程度较高,可以避免仅根据候选词在文档中的统计信息确定的关键词与查询图关联程度较低的问题,提高确定的关键词的准确度。
另外,本发明实施例提供了S304的实施方式,请参见下文具体实施方式。
S305:选择排序最高的候选词作为查询图对应的关键词。
在将候选词利用统计信息以及图文相似度进行排序之后,将排序最高的候选词作为查询图对应的关键词,可以理解的是,排序最高的候选词为候选词中统计信息与图文相似度综合排序最高的候选词,为候选词中最接近查询图内容的候选词。
基于上述S301-S305的相关内容可知,在本发明实施例中,通过获取包含查询图的至少一篇文档,提取文档中的候选词,在候选词之中进行关键词的选择;确定候选词与查询图的图文相似度,利用候选词在文档中的统计信息和图文相似度,对候选词进行排序,将排序最高的候选词作为查询图的关键词,如此可以从文档主题的相关度和查询图的关联程度的两个方面确定查询图的关键词,使得得到的查询图的关键词更加准确,可以避免仅通过与文档主题的相关性确定的关键词与查询图的关联程度不高的问题。
可以理解的是,在一种可能的实现方式中,为了提高确定的关键词的准确性,可以根据候选词具有的特征,预先建立候选词词表,如此,在进行候选词的提取时,可以较为准确地确定文档中的候选词,可以避免将本不属于候选词的词汇作为候选词进行提取,导致最终确定的关键词不够准确。
具体的,提取文档中的候选词,可以包括以下两个步骤:
A1:对文档进行分词,将得到的分词进行合并生成合并词。
可以理解的是,文档中具有多个词汇,为了得到候选词可以先对文档进行分词,得到组成文档的分词,再将得到的分词进行合并,得到合并词,进而确定候选词。需要说明的是,对文档进行分词得到的是分词是基本的词汇,通过将分词进行合并,可以得到具有完整含义的合并词。通过对分词进行合并,可以保证得到的合并词含义正确,防止由于分词造成文档中词汇的含义变化。例如,文档中具有“国家博物馆”这一词汇,对文档进行分词可以得到“国家”和“博物馆”两个分词,显然这两个分词并不能完整的表示文档中“国家博物馆”这一词汇的含义,所以要对“国家”和“博物馆”两个分词进行合并,得到具有完整含义的词汇“国家博物馆”。
本发明实施例中不限定对分词进行合并生成合并词的方法,在一种可能的实现方式中,可以将按照分词在文档中的顺序进行与前后分词进行合并,若得到具有完整含义的词汇,将得到的具有完整含义的词汇作为生成的合并词。
A2:如果合并词在预先建立的候选词词表中,将合并词确定为候选词。
为了更加准确地确定候选词,可以预先建立候选词词表,候选词词表可以为根据常用词汇建立的。在得到合并词之后,若合并词在预先建立的候选词词表中,则将该合并词确定为候选词。
基于上述内容可知,通过对文档进行分词以及对分词进行合并,可以得到具有完整含义的合并词,若合并词在预先建立的候选词词表中,将该合并词确定为候选词。通过对文档进行分词和合并,可以对文档进行正确的词汇的划分,得到具有完整含义的合并词。再通过预先建立的候选词词表,可以将在候选词词表中存在的合并词确定为候选词,由此,可以较为准确地确定候选词,避免由于候选词不准确导致的确定关键词时出现的误差。
基于上述S303的内容可知,对于确定候选词与查询图的图文相似度,在一种可能的实现方式中,可以通过先确定查询图对应的关键词的特征,再与候选词的特征进行比较,得到图文相似度;还可以直接根据候选词与查询图确定候选词与查询图之间的图文相似度。对应的,本发明实施例还提供了两种确定候选词与查询图的图文相似度的实施方式,下面分别进行介绍。
作为S303的第一种实施方式,参见图4所示,图4为本发明实施例提供的一种确定候选词与查询图的图文相似度的方法,该方法包括S401-S403:
S401:将查询图输入图片关键词特征提取模型,获得图片关键词特征模型输出的查询图对应的关键词文本特征,图片关键词特征模型是利用待训练查询图以及待训练查询图对应的关键词文本特征训练得到的。
将查询图输入至图片关键词模型中,可以得到图片关键词模型输出的查询图对应的关键词文本特征。查询图对应的关键词文本特征是指查询图的关键词所具有的文本特征,用于表示查询图对应的关键词的相关信息。根据得到的查询图对应的关键词文本特征以及候选词的文本特征,可以进一步得到查询图与候选词的图文相似度。
图片关键词特征模型可以是根据待训练查询图以及待训练查询图对应的关键词文本特征训练得到的。其中,待训练查询图为具有具体图片内容的图片,根据待训练查询图的图片内容先确定与图片内容对应的关键词,再对关键词进行文本特征提取。本发明实施例中不限定关键词文本特征的种类,例如,在一种可能的实现方式中,可以将关键词的词向量作为关键词文本特征,在实际应用中,可以将待训练查询图对应的关键词输入至词向量模型中,得到关键词的词向量,将得到的关键词的词向量作为关键词文本特征。
根据待训练查询图对应的关键词文本特征对待训练查询图进行标签标记,将具有关键词文本特征标签的待训练查询图作为训练数据,通过利用大量的具有关键词文本特征标签的待训练查询图进行训练,得到图片关键词特征模型。训练得到的图片关键词特征模型可以根据输入的查询图输出查询图的关键词文本特征。
S402:获取候选词的文本特征。
在得到查询图的关键词文本特征之后,对应的获取候选词的文本特征,用于根据候选词的文本特征与查询图的关键词文本特征得到图文相似度。候选词的文本特征为用于表示候选词的相关信息的特征。需要说明的是,为了便于后续计算候选词的文本特征与查询图对应的关键词文本特征之间的相关性,候选词的文本特征可以与查询图对应的关键词文本特征的种类一致。例如,当查询图对应的关键词文本特征为关键词的词向量时,对应的,可以通过词向量模型得到候选词的词向量,作为候选词的文本特征。
S403:计算候选词的文本特征与查询图对应的关键词文本特征之间的相关性,作为候选词与查询图的图文相似度。
候选词的文本特征与查询图对应的关键词文本特征之间的相关性可以是指候选词的文本特征与查询图对应的关键词文本特征的相似程度。具体的,可以通过计算候选词的文本特征与查询图对应的关键词文本特征之间的距离来确定相似程度。本发明实施例中不限定相关性的计算方法,例如,当候选词的文本特征为候选词的词向量,查询图对应的关键词文本特征为关键词的词向量时,可以通过计算候选词的词向量与关键词的词向量之间的余弦相似度来确定相似程度。
通过计算候选词的文本特征与查询图对应的关键词文本特征的相关性,可以得到候选词与查询图对应的关键词之间的关联程度,也就是候选词与查询图的图文相似度。
基于上述S401-S403中的内容可知,通过得到查询图对应的关键词文本特征,可以计算关键词文本特征与候选词的文本特征的相关性,从而得到候选词与查询图的图文相似度,用于后续根据图文相似度对候选词进行排序。
作为S303的第二种实施方式,可以通过图文相似度模型得到候选词与查询图的图文相似度,具体方法包括:
将候选词与查询图输入图文相似度确定模型,获得图文相似度确定模型输出的候选词与查询图的图文相似度,图文相似度确定模型是利用待训练查询图与待训练候选词的图文相似度训练得到的。
图文相似度确定模型是由待训练查询图与待训练候选词的图文相似度训练得到的,可以用于根据输入的查询图和候选词,输出候选词与查询图的图文相似度。待训练查询图为具有具体图片内容的图片,可以根据待训练查询图确定对应于不同图文相似度的待训练候选词,并根据对应的图文相似度对待训练候选词进行标记,得到对应的图文相似度的标签。将待训练查询图、对应的待训练候选词以及待训练候选词对应的图文相似度的标签作为训练数据,通过大量的训练数据的训练,得到图文相似度确定模型。基于上述内容可知,通过将候选词与查询图输入至图文相似度确定模型中,得到图文相似度确定模型输出的候选词与查询图的图文相似度,以便后续根据查询图与候选词的图文相似度进行候选词的排序。
在本发明实施例一种可能的实现方式中,本发明实施例还提供了S304的一种具体实现方式,包括以下两个步骤:
B1:将利用候选词在文档中的统计信息以及候选词与查询图的图文相似度输入第一候选词特征评价模型,得到第一候选词特征评价模型输出的候选词的评价得分。
将候选词在文档中的统计信息以及候选词与查询图的图文相似度作为第一候选词特征评价模型的输入,得到第一候选词特征评价模型输出的候选词的评价得分。其中,第一候选词特征评价模型的训练数据可以是由待训练候选词在待训练文档中的统计信息、待训练候选词与查询图的图文相似度以及待训练候选词的评价得分标签组成的,待训练候选词的评价得分可以预先标记得到。例如,当待训练候选词在待训练文档中的统计信息较优、待训练候选词与查询词的图文相似度较高时,对应的待训练候选词的评价得分较高。利用较大数量的训练数据训练得到的第一候选词特征评价模型,可以用于根据输入的候选词在文档中的统计信息以及候选词与查询图的图文相似度输出该候选词对应的评价得分。
B2:利用各个候选词的评价得分对各个候选词进行排序。
根据各个候选词的评价得分对候选词进行排序,以便根据候选词的排序位置选取关键词。
基于上述内容可知,通过将候选词在文档中的统计信息以及候选词与查询图的图文相似度输入至第一候选词特征评价模型中,可以得到候选词的评价得分,可以根据得到的评价得分对候选词进行排序。通过得到的候选词的评价得分对候选词进行排序,可以使得候选词的排序更加准确,以使选择的排序位置最高的候选词是最准确的候选词。
通过将候选词在文档中的统计信息以及候选词与查询图的图文相似度作为候选词的排序的依据,可以确保得到的关键词在与文档的主题的相关度以及与查询图的关联程度较高。但是,当获取的文档本身的可信度或者是质量不高时,例如,文档中的查询图与文档中的文本无关或者是文档中的文本内容质量较差时,即使将与文档的主题相关度以及与查询图的关联程度较高的候选词确定为关键词,由于文档本身具有问题,最终得到的关键词也不能准确地表示查询图的内容。
另外,在一般情况下,根据查询图确定的关键词具有较大的概率是常用词,仅有较小的概率是非常用词。当候选词为非常用词时,具有较大的可能属于不能准确表示查询图内容的词汇。
为了解决上述问题,本发明实施例还提供了一种图片关键词确定方法,在该实施方式中,除了包括上述S301-S305以外,还包括:
获取候选词对应的附加特征,候选词对应的附加特征为文档所属网站的特征和/或候选词对应的类别信息,候选词对应的文档所属网站的特征是根据候选词对应的文档所属网站的访问量确定的。
在获取包含查询图的至少一篇文档,提取文档中的候选词之后,获取候选词对应的文档所属网站的特征,通过文档所属的网站的特征,可以判断文档的质量,进而可以影响候选词的排序顺序。其中,候选词对应的文档所属网站的特征可以是根据候选词对应的文档所属网站的访问量确定的。当该网站的访问量较高时,相应的该网站中文档的可信度较高,从该文档中提取的候选词较优;当该网站的访问量较低时,可以认为该网站中文档的质量较低,对应的,从该文档中提取的候选词较差。
考虑到词汇的使用习惯,可以预先建立候选词词表,其中,候选词词表中具有按照常用词的分类得到的类别信息。例如,候选词词表中的词可以分为人物、影视剧、书籍、电子、景点、汽车、花卉、动物、蔬菜、食材以及其它共11个类别,当候选词不属于前10种具有具体的类别名称时,可以将候选词归为“其它”类别。
在确定候选词之后,可以获取候选词对应的类别信息,如果候选词属于预先确定的具体类别,则该候选词属于较为常用的词汇;如果候选词不属于预先确定的具体类别或者属于“其它”类别,则该候选词可能不属于常用的词汇。进一步的,可以将候选词对应的类别信息作为候选词排序的依据之一,根据候选词对应的类别信息进行候选词的排序。
在本发明实施例中,通过获取候选词的文档所属网站的特征和/或候选词对应的类别信息,从候选词的文档和/或候选词的类别方面获取候选词的相关信息,以便后续在进行候选词的排序时根据候选词的文档所属网站的特征和/或候选词的类别信息对候选词进行排序,确保最终选择的候选词的文档质量较高和/或候选词为较为常用的词汇,进一步提高确定的关键词的准确程度。
进一步的,当获取候选词对应的文档所属网站的特征和/或候选词对应的类别信息后,在对候选词进行排序时,可以将候选词对应的文档所属网站的特征和/或候选词对应的类别信息作为排序的依据之一。具体的,利用候选词在文档中的统计信息以及候选词与查询图的图文相似度,对各个候选词进行排序,包括:
利用候选词在文档中的统计信息、候选词与查询图的图文相似度以及候选词的附加特征,对各个候选词进行排序。
在获取候选词对应的文档所属网站的特征和/或候选词对应的类别信息之后,可以将候选词对应的文档所属网站的特征和/或候选词对应的类别信息作为附加特征。利用候选词在文档中的统计信息、候选词与查询图的图文相似度以及附加特征,对候选词进行排序。根据候选词与文档的主题的相关性、与查询图的关联程度以及候选词的文档的质量和/或候选词的常用程度,对候选词进行排序后得到的关键词,在与文档的主题的相关性、与查询图的关联程度以及文档的质量和/或常用程度均较高,由此得到的关键词准确度较高,可以较好地表示查询图的内容。
在本发明实施例中,在对候选词进行排序时增加附加特征,附加特征为候选词对应的文档所属网站的特征和/或候选词对应的类别信息,可以在根据候选词与文档的相关度和查询图的关联程度进行排序的基础上,增加了候选词的文档质量和/或候选词的常用程度,使得得到的候选词的排序更加准确,根据候选词的排序得到的关键词与查询图的关联程度更高。
基于上述利用候选词在文档中的统计信息、候选词与查询图的图文相似度以及候选词的附加特征,对各个候选词进行排序的相关内容,本发明实施例还提供了一种利用候选词在文档中的统计信息、与查询图的图文相似度以及候选词的附加特征对候选词进行排序的实施方式,具体包括:
将候选词在文档中的统计信息、候选词与查询图的图文相似度以及候选词的附加特征输入第二候选词特征评价模型,得到第二候选词特征评价模型输出的候选词的评价得分,第二候选词特征评价模型是根据待训练候选词在待训练文档中的统计信息、待训练候选词与待训练查询图的图文相似度、待训练候选词的附加特征以及待训练候选词的评价得分训练得到的,待训练候选词的附加特征为待训练候选词对应的文档所属网站的特征和/或待训练候选词对应的类别信息;
利用各个候选词的评价得分对各个候选词进行排序。
需要说明的是,候选词的附加特征为候选词对应的文档所属网站的特征和/或候选词对应的类别信息,相对应的当候选词的附加特征所包含的特征种类不同时,对应的第二候选词特征评价模型不同。
当候选词的附加特征为候选词对应的文档所属网站的特征时,对应的第二候选词特征评价模型是由待训练候选词在待训练文档中的统计信息、待训练候选词与待训练查询图的图文相似度、待训练候选词对应的文档所属网站的特征以及待训练候选词的评价得分训练得到的。其中,可以根据待训练候选词在待训练文档中的统计信息、待训练候选词与待训练查询图的图文相关度以及待训练候选词对应的文档所属网站的特征,标记待训练候选词评价得分。训练得到的第二候选词特征评价模型可以根据输入的候选词统计信息、候选词与查询图的图文相似度以及候选词对应的文档所属网站的特征,输出该候选词的评价得分。
当候选词的附加特征为候选词对应的类别信息时,对应的第二候选词特征评价模型是由待训练候选词在待训练文档中的统计信息、待训练候选词与待训练查询图的图文相似度、待训练候选词对应的类别信息以及待训练候选词的评价得分训练得到的。可以根据待训练候选词在待训练文档中的统计信息、待训练候选词与待训练查询图的图文相关度以及待训练候选词对应的类别信息,标记待训练候选词评价得分。训练得到的第二候选词特征评价模型可以根据输入的候选词统计信息、候选词与查询图的图文相似度以及候选词对应的类别信息,输出该候选词的评价得分。
当候选词的附加特征为候选词对应的文档所属网站的特征和候选词对应的类别信息时,对应的待训练候选词的附加特征为待训练候选词对应的文档所属网站的特征和待训练候选词对应的类别信息。第二候选词特征评价模型是根据待训练候选词在待训练文档中的统计信息、待训练候选词与待训练查询图的图文相似度、待训练候选词对应的文档所属网站的特征和待训练候选词对应的类别信息以及待训练候选词的评价得分标签作为训练数据训练得到的。其中,可以根据待训练候选词在待训练文档中的统计信息、待训练候选词与待训练查询图的图文相关度、待训练候选词对应的文档所属网站的特征以及待训练候选词对应的类别信息,标记待训练候选词评价得分得到的。训练得到的第二候选词特征评价模型可以根据输入的候选词统计信息、候选词与查询图的图文相似度、候选词对应的文档所属网站的特征以及候选词对应的类别信息,输出候选词的评价得分。
从而第二候选词特征评价模型可以根据输入的候选词在文档中的统计信息、候选词与待训练查询图的图文相似度以及候选词的附加特征,输出候选词的评价得分。根据各个候选词的评价得分,可以对候选词进行排序,以便将排序最高的候选词确定为关键词。在本发明实施例中,可以通过第二候选词特征评价模型得到候选词的评价得分,根据候选词的评价得分对候选词进行排序,使得候选词的排序结果更加准确,进而最终根据排序位置得到的关键词为候选词中与查询图的关联程度最高的候选词,能够较为准确地表示查询图的内容。
基于上述方法实施例提供的图片关键词确定方法,本发明实施例还提供了一种图片关键词确定装置,下面结合附图进行介绍。
参见图5,该图为本发明实施例提供的一种图片关键词确定装置的结构示意图。
文档获取单元501,用于获取包含查询图的至少一篇文档;
候选词提取单元502,用于提取所述文档中的候选词;
图文相似度确定单元503,用于确定所述候选词与所述查询图的图文相似度;
排序单元504,用于利用所述候选词在所述文档中的统计信息以及所述候选词与所述查询图的图文相似度,对各个所述候选词进行排序;
关键词确定单元505,用于选择排序最高的候选词作为所述查询图对应的关键词。
可选的,所述候选词提取单元502,包括:
合并词生成子单元,用于对所述文档进行分词,将得到的分词进行合并生成合并词;
候选词确定子单元,用于如果所述合并词在预先建立的候选词词表中,将所述合并词确定为候选词。
可选的,所述图文相似度确定单元503,包括:
关键词文本特征获取子单元,用于将所述查询图输入图片关键词特征提取模型,获得所述图片关键词特征模型输出的所述查询图对应的关键词文本特征,所述图片关键词特征模型是利用待训练查询图以及所述待训练查询图对应的关键词文本特征训练得到的;
候选词文本特征获取子单元,用于获取所述候选词的文本特征;
相关性计算子单元,用于计算所述候选词的文本特征与所述查询图对应的关键词文本特征之间的相关性,作为所述候选词与所述查询图的图文相似度。
可选的,所述图文相似度确定单元503,具体用于将所述候选词与所述查询图输入图文相似度确定模型,获得所述图文相似度确定模型输出的所述候选词与所述查询图的图文相似度,所述图文相似度确定模型是利用待训练查询图与待训练候选词的图文相似度训练得到的。
可选的,所述排序单元504,包括:
第一评价得分获取子单元,用于将利用所述候选词在所述文档中的统计信息以及所述候选词与所述查询图的图文相似度输入第一候选词特征评价模型,得到所述第一候选词特征评价模型输出的所述候选词的评价得分,所述第一候选词特征评价模型是根据待训练候选词在待训练文档中的统计信息、所述待训练候选词与待训练查询图的图文相似度以及所述待训练候选词的评价得分训练得到的;
第一排序子单元,用于利用各个所述候选词的评价得分对各个所述候选词进行排序。
可选的,所述装置还包括:
附加特征获取单元,用于获取所述候选词对应的附加特征,所述候选词的附加特征为所述候选词对应的文档所属网站的特征和/或所述候选词对应的类别信息;所述候选词对应的文档所属网站的特征是根据所述候选词对应的文档所属网站的访问量确定的。
可选的,所述排序单元504,具体用于利用所述候选词在所述文档中的统计信息、所述候选词与所述查询图的图文相似度以及所述候选词的附加特征,对各个所述候选词进行排序。
可选的,所述排序单元504,包括:
第二评价得分获取子单元,用于将所述候选词在所述文档中的统计信息、所述候选词与所述查询图的图文相似度以及所述候选词的附加特征输入第二候选词特征评价模型,得到所述第二候选词特征评价模型输出的所述候选词的评价得分,所述第二候选词特征评价模型是根据待训练候选词在待训练文档中的统计信息、所述待训练候选词与待训练查询图的图文相似度、所述待训练候选词的附加特征以及所述待训练候选词的评价得分训练得到的,所述待训练候选词的附加特征为所述待训练候选词对应的文档所属网站的特征和/或所述待训练候选词对应的类别信息;
第二排序子单元,用于利用各个所述候选词的评价得分对各个所述候选词进行排序。
图6示出了一种客户端1200的框图。例如,客户端1200可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图6,客户端1200可以包括以下一个或多个组件:处理组件1202,存储器1204,电源组件1206,多媒体组件1208,音频组件1210,输入/输出(I/O)的接口1212,传感器组件1214,以及通信组件1216。
处理组件1202通常控制客户端1200的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件1202可以包括一个或多个处理器1220来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1202可以包括一个或多个模块,便于处理组件1202和其他组件之间的交互。例如,处理部件1202可以包括多媒体模块,以方便多媒体组件1208和处理组件1202之间的交互。
存储器1204被配置为存储各种类型的数据以支持在客户端1200的操作。这些数据的示例包括用于在客户端1200上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件1206为客户端1200的各种组件提供电力。电源组件1206可以包括电源管理系统,一个或多个电源,及其他与为客户端1200生成、管理和分配电力相关联的组件。
多媒体组件1208包括在所述客户端1200和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1208包括一个前置摄像头和/或后置摄像头。当客户端1200处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件1210被配置为输出和/或输入音频信号。例如,音频组件1210包括一个麦克风(MIC),当客户端1200处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1204或经由通信组件1216发送。在一些实施例中,音频组件1210还包括一个扬声器,用于输出音频信号。
I/O接口为处理组件1202和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件1214包括一个或多个传感器,用于为客户端1200提供各个方面的状态评估。例如,传感器组件1214可以检测到设备1200的打开/关闭状态,组件的相对定位,例如所述组件为客户端1200的显示器和小键盘,传感器组件1214还可以检测客户端1200或客户端1200一个组件的位置改变,用户与客户端1200接触的存在或不存在,客户端1200方位或加速/减速和客户端1200的温度变化。传感器组件1214可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1214还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1214还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件1216被配置为便于客户端1200和其他设备之间有线或无线方式的通信。客户端1200可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件1216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件1216还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,客户端1200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行下述方法:
获取包含查询图的至少一篇文档;
提取所述文档中的候选词;
确定所述候选词与所述查询图的图文相似度;
利用所述候选词在所述文档中的统计信息以及所述候选词与所述查询图的图文相似度,对各个所述候选词进行排序;
选择排序最高的候选词作为所述查询图对应的关键词。
可选的,所述提取所述文档中的候选词,包括:
对所述文档进行分词,将得到的分词进行合并生成合并词;
如果所述合并词在预先建立的候选词词表中,将所述合并词确定为候选词。
可选的,所述确定所述候选词与所述查询图的图文相似度,包括:
将所述查询图输入图片关键词特征提取模型,获得所述图片关键词特征模型输出的所述查询图对应的关键词文本特征,所述图片关键词特征模型是利用待训练查询图以及所述待训练查询图对应的关键词文本特征训练得到的;
获取所述候选词的文本特征;
计算所述候选词的文本特征与所述查询图对应的关键词文本特征之间的相关性,作为所述候选词与所述查询图的图文相似度。
可选的,所述确定所述候选词与所述查询图的图文相似度,包括:
将所述候选词与所述查询图输入图文相似度确定模型,获得所述图文相似度确定模型输出的所述候选词与所述查询图的图文相似度,所述图文相似度确定模型是利用待训练查询图与待训练候选词的图文相似度训练得到的。
可选的,所述利用所述候选词在所述文档中的统计信息以及所述候选词与所述查询图的图文相似度,对各个所述候选词进行排序,包括:
将利用所述候选词在所述文档中的统计信息以及所述候选词与所述查询图的图文相似度输入第一候选词特征评价模型,得到所述第一候选词特征评价模型输出的所述候选词的评价得分,所述第一候选词特征评价模型是根据待训练候选词在待训练文档中的统计信息、所述待训练候选词与待训练查询图的图文相似度以及所述待训练候选词的评价得分训练得到的;
利用各个所述候选词的评价得分对各个所述候选词进行排序。
可选的,所述方法还包括:
获取所述候选词对应的附加特征,所述候选词的附加特征为所述候选词对应的文档所属网站的特征和/或所述候选词对应的类别信息;所述候选词对应的文档所属网站的特征是根据所述候选词对应的文档所属网站的访问量确定的。
可选的,所述利用所述候选词在所述文档中的统计信息以及所述候选词与所述查询图的图文相似度,对各个所述候选词进行排序,包括:
利用所述候选词在所述文档中的统计信息、所述候选词与所述查询图的图文相似度以及所述候选词的附加特征,对各个所述候选词进行排序。
可选的,所述利用所述候选词在所述文档中的统计信息、所述候选词与所述查询图的图文相似度以及所述候选词的附加特征,对各个所述候选词进行排序,包括:
将所述候选词在所述文档中的统计信息、所述候选词与所述查询图的图文相似度以及所述候选词的附加特征输入第二候选词特征评价模型,得到所述第二候选词特征评价模型输出的所述候选词的评价得分,所述第二候选词特征评价模型是根据待训练候选词在待训练文档中的统计信息、所述待训练候选词与待训练查询图的图文相似度、所述待训练候选词的附加特征以及所述待训练候选词的评价得分训练得到的,所述待训练候选词的附加特征为所述待训练候选词对应的文档所属网站的特征和/或所述待训练候选词对应的类别信息;
利用各个所述候选词的评价得分对各个所述候选词进行排序。
图7是本发明实施例中服务器的结构示意图。该服务器1300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1322(例如,一个或一个以上处理器)和存储器1332,一个或一个以上存储应用程序1342或数据1344的存储介质1330(例如一个或一个以上海量存储设备)。其中,存储器1332和存储介质1330可以是短暂存储或持久存储。存储在存储介质1330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1322可以设置为与存储介质1330通信,在服务器1300上执行存储介质1330中的一系列指令操作。
服务器1300还可以包括一个或一个以上电源1326,一个或一个以上有线或无线网络接口1350,一个或一个以上输入输出接口1356,一个或一个以上键盘1356,和/或,一个或一个以上操作系统1341,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
另外,本发明实施例还提供一种计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行上述的图片关键词确定方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
应当理解,在本发明中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种图片关键词确定方法,其特征在于,所述方法包括:
获取包含查询图的至少一篇文档;
提取所述文档中的候选词;
确定所述候选词与所述查询图的图文相似度;
利用所述候选词在所述文档中的统计信息以及所述候选词与所述查询图的图文相似度,对各个所述候选词进行排序;
选择排序最高的候选词作为所述查询图对应的关键词。
2.根据权利要求1所述的方法,其特征在于,所述提取所述文档中的候选词,包括:
对所述文档进行分词,将得到的分词进行合并生成合并词;
如果所述合并词在预先建立的候选词词表中,将所述合并词确定为候选词。
3.根据权利要求1所述的方法,其特征在于,所述确定所述候选词与所述查询图的图文相似度,包括:
将所述查询图输入图片关键词特征提取模型,获得所述图片关键词特征模型输出的所述查询图对应的关键词文本特征,所述图片关键词特征模型是利用待训练查询图以及所述待训练查询图对应的关键词文本特征训练得到的;
获取所述候选词的文本特征;
计算所述候选词的文本特征与所述查询图对应的关键词文本特征之间的相关性,作为所述候选词与所述查询图的图文相似度;
或者,
将所述候选词与所述查询图输入图文相似度确定模型,获得所述图文相似度确定模型输出的所述候选词与所述查询图的图文相似度,所述图文相似度确定模型是利用待训练查询图与待训练候选词的图文相似度训练得到的。
4.根据权利要求1所述的方法,其特征在于,所述利用所述候选词在所述文档中的统计信息以及所述候选词与所述查询图的图文相似度,对各个所述候选词进行排序,包括:
将利用所述候选词在所述文档中的统计信息以及所述候选词与所述查询图的图文相似度输入第一候选词特征评价模型,得到所述第一候选词特征评价模型输出的所述候选词的评价得分,所述第一候选词特征评价模型是根据待训练候选词在待训练文档中的统计信息、所述待训练候选词与待训练查询图的图文相似度以及所述待训练候选词的评价得分训练得到的;
利用各个所述候选词的评价得分对各个所述候选词进行排序。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述候选词对应的附加特征,所述候选词的附加特征为所述候选词对应的文档所属网站的特征和/或所述候选词对应的类别信息;所述候选词对应的文档所属网站的特征是根据所述候选词对应的文档所属网站的访问量确定的。
6.根据权利要求5所述的方法,其特征在于,所述利用所述候选词在所述文档中的统计信息以及所述候选词与所述查询图的图文相似度,对各个所述候选词进行排序,包括:
利用所述候选词在所述文档中的统计信息、所述候选词与所述查询图的图文相似度以及所述候选词的附加特征,对各个所述候选词进行排序。
7.根据权利要求6所述的方法,其特征在于,所述利用所述候选词在所述文档中的统计信息、所述候选词与所述查询图的图文相似度以及所述候选词的附加特征,对各个所述候选词进行排序,包括:
将所述候选词在所述文档中的统计信息、所述候选词与所述查询图的图文相似度以及所述候选词的附加特征输入第二候选词特征评价模型,得到所述第二候选词特征评价模型输出的所述候选词的评价得分,所述第二候选词特征评价模型是根据待训练候选词在待训练文档的统计信息、所述待训练候选词与待训练查询图的图文相似度、所述待训练候选词的附加特征以及所述待训练候选词的评价得分训练得到的,所述待训练候选词的附加特征为所述待训练候选词对应的文档所属网站的特征和/或所述待训练候选词对应的类别信息;
利用各个所述候选词的评价得分对各个所述候选词进行排序。
8.一种图片关键词确定装置,其特征在于,所述装置包括:
文档获取单元,用于获取包含查询图的至少一篇文档;
候选词提取单元,用于提取所述文档中的候选词;
图文相似度确定单元,用于确定所述候选词与所述查询图的图文相似度;
排序单元,用于利用所述候选词在所述文档中的统计信息以及所述候选词与所述查询图的图文相似度,对各个所述候选词进行排序;
关键词确定单元,用于选择排序最高的候选词作为所述查询图对应的关键词。
9.一种用于图片关键词确定的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取包含查询图的至少一篇文档;
提取所述文档中的候选词;
确定所述候选词与所述查询图的图文相似度;
利用所述候选词在所述文档中的统计信息以及所述候选词与所述查询图的图文相似度,对各个所述候选词进行排序;
选择排序最高的候选词作为所述查询图对应的关键词。
10.一种计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行权利要求1至7中一个或多个所述的图片关键词确定方法。
CN202010915712.1A 2020-09-03 2020-09-03 一种图片关键词确定方法及装置 Pending CN114139005A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010915712.1A CN114139005A (zh) 2020-09-03 2020-09-03 一种图片关键词确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010915712.1A CN114139005A (zh) 2020-09-03 2020-09-03 一种图片关键词确定方法及装置

Publications (1)

Publication Number Publication Date
CN114139005A true CN114139005A (zh) 2022-03-04

Family

ID=80438124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010915712.1A Pending CN114139005A (zh) 2020-09-03 2020-09-03 一种图片关键词确定方法及装置

Country Status (1)

Country Link
CN (1) CN114139005A (zh)

Similar Documents

Publication Publication Date Title
CN109800325B (zh) 视频推荐方法、装置和计算机可读存储介质
US11394675B2 (en) Method and device for commenting on multimedia resource
CN110232137B (zh) 一种数据处理方法、装置和电子设备
CN108304412B (zh) 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
CN107918496B (zh) 一种输入纠错方法和装置、一种用于输入纠错的装置
CN107784045B (zh) 一种快捷回复方法和装置、一种用于快捷回复的装置
CN111708943B (zh) 一种搜索结果展示方法、装置和用于搜索结果展示的装置
CN109918565B (zh) 一种搜索数据的处理方法、装置及电子设备
CN109101505B (zh) 一种推荐方法、推荐装置和用于推荐的装置
CN112784142A (zh) 一种信息推荐方法及装置
CN109521888B (zh) 一种输入方法、装置和介质
CN111984749A (zh) 一种兴趣点排序方法和装置
CN109783244B (zh) 处理方法和装置、用于处理的装置
CN110929176A (zh) 一种信息推荐方法、装置及电子设备
CN112307281A (zh) 一种实体推荐方法及装置
CN110020106B (zh) 一种推荐方法、推荐装置和用于推荐的装置
CN110633017A (zh) 一种输入方法、装置和用于输入的装置
CN110110046B (zh) 同名实体推荐方法及装置
CN107301188B (zh) 一种获取用户兴趣的方法及电子设备
CN112987941B (zh) 生成候选词的方法及装置
CN114139005A (zh) 一种图片关键词确定方法及装置
CN111382367B (zh) 一种搜索结果排序方法和装置
CN112052395A (zh) 一种数据处理方法及装置
CN110147426B (zh) 一种查询文本的分类标签确定方法及相关装置
CN112214692A (zh) 基于输入法的数据处理方法、装置和机器可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination