CN107066596A - 生成链接信息的方法和装置 - Google Patents
生成链接信息的方法和装置 Download PDFInfo
- Publication number
- CN107066596A CN107066596A CN201710257885.7A CN201710257885A CN107066596A CN 107066596 A CN107066596 A CN 107066596A CN 201710257885 A CN201710257885 A CN 201710257885A CN 107066596 A CN107066596 A CN 107066596A
- Authority
- CN
- China
- Prior art keywords
- webpage
- picture
- theme
- keyword
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9558—Details of hyperlinks; Management of linked annotations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本公开是关于一种生成链接信息的方法和装置,属于计算机技术领域。所述方法包括:从网页中获取至少一个关键词,以及获取该网页中的图片包括的物体图像对应的物体描述信息,该至少一个关键词中的每个关键词用于指示所述网页的主题;根据每个关键词以及该图片包括的物体图像对应的物体描述信息,确定该图片与该网页的主题之间的相关度;选择与该网页的主题的相关度满足第一预设条件的图片;将选择的图片作为该网页的封面,并将该网页的封面结合该网页的链接地址合成该网页的链接信息。解决了相关技术中利用网页中第一张图片的缩略图来指示网页的主题的准确性低的问题,达到了提高网页链接信息中的图片指示网页的主题的准确性的效果。
Description
技术领域
本公开涉及计算机技术领域,特别涉及一种生成链接信息的方法和装置。
背景技术
目前,很多网页中包括其他网页的链接信息,用户可以通过该链接信息打开其他网页。网页的链接信息通常包括该网页的链接地址、网页标题和图片等内容,该图片用于帮助用户了解网页的主题。
相关技术提供的网页的链接信息的生成方法,包括:获取该网页中的第一张图片,生成该图片的缩略图,利用该缩略图、该网页的主题以及链接地址生成该网页的链接信息。
然而,网页中的第一张图片不一定是该网页中最能够表达该网页的主题的图片,因此,利用网页中第一张图片的缩略图来指示网页的主题的准确性低。
发明内容
本公开实施例提供了一种生成链接信息的方法和装置。所述技术方案如下:
根据本公开实施例的第一方面,提供了一种生成链接信息的方法所述方法包括:从网页中获取至少一个关键词,以及获取所述网页中的图片包括的物体图像对应的物体描述信息,所述至少一个关键词中的每个关键词用于指示所述网页的主题;根据所述每个关键词以及所述图片包括的物体图像对应的物体描述信息,确定所述图片与所述网页的主题之间的相关度;选择与所述网页的主题的相关度满足第一预设条件的图片;将所述选择的图片作为所述网页的封面,并将所述网页的封面结合所述网页的链接地址合成所述网页的链接信息。
通过获取网页中用于指示该网页的主题的关键词;对于每张图片,根据获取的每个关键词以及该图片包括的物体图像对应的物体描述信息,确定该图片与该网页之间的主题的相关度;选择与该网页的主题的相关度满足第一预设条件的图片;将选择的图片作为该网页的封面,并将该网页的封面结合该网页的链接地址合成该网页的链接信息;由于能够根据网页中各图片与该网页主题之间的相关度,从该网页中选择能够表达该网页的主题的图片,解决了相关技术中利用网页中第一张图片的缩略图来指示网页的主题的准确性低的问题,达到了提高网页链接信息中的图片指示网页的主题的准确性的效果。
可选的,所述从网页中获取至少一个关键词,包括:对所述网页中的文字进行分词得到至少一个词语,统计所述至少一个词语中每个词语在所述网页中出现的频次;根据所述每个词语的频次计算所述每个词语的权重值,词语的权重值用于指示所述词语与所述网页的主题相关的程度;将所述至少一个词语中权重值满足第二预设条件的词语确定为关键词。
可选的,所述根据所述每个关键词以及所述图片包括的物体图像对应的物体描述信息,确定所述图片与所述网页的主题之间的相关度,包括:从所述至少一个关键词中确定出所述图片包括的物体图像对应的物体描述信息中的关键词;将确定出的关键词的权重值进行累加得到所述图片与所述网页的主题之间的相关度。
可选的,所述方法还包括:根据所述图片在所述网页中的位置对应的调整系数,调整所述图片与所述网页的主题之间的相关度。
一般来讲,网页中每张图片的展示位置一定程度也能够反映该图片与该网页主题的相关程度,展示位置越靠前的图片与该网页的主题相关程度的可能越高。通过利用每张图片的展示位置对应的调整系数,调整该图片与该网页的主题的相关度,达到了修正该图片与该网页的主题的相关度的效果。
可选的,所述方法还包括:在接收到终端发送的所述网页的链接地址和当前显示的所述网页的图片的图片标识时,根据所述链接地址和所述图片标识向所述终端发送所述网页包括的至少一张图片,所述至少一张图片中的每张图片与所述网页的主题之间的相关度低于所述终端当前显示的图片与所述网页的主题之间的相关度。
根据本公开实施例的第二方面,提供了一种生成链接信息的装置,所述装置包括:获取模块,被配置为从网页中获取至少一个关键词,以及获取所述网页中的图片包括的物体图像对应的物体描述信息,所述至少一个关键词中的每个关键词用于指示所述网页的主题;确定模块,被配置为根据所述获取模块获取到的每个关键词以及所述图片包括的物体图像对应的物体描述信息,确定所述图片与所述网页的主题之间的相关度;选择模块,被配置为选择与所述网页的主题的相关度满足第一预设条件的图片;生成模块,被配置为根据所述选择模块选择的图片作为所述网页的封面,并将所述网页的封面结合所述网页的链接地址合成所述网页的链接信息。
可选的,所述获取模块,包括:分词子模块,被配置为对所述网页中的文字进行分词得到至少一个词语,统计所述至少一个词语中每个词语在所述网页中出现的频次;计算子模块,被配置为根据所述分词子模块进行分词得到的每个词语的频次计算所述每个词语的权重值,词语的权重值用于指示所述词语与所述网页的主题相关的程度;第一确定子模块,被配置为将所述至少一个词语中权重值满足第二预设条件的词语确定为关键词。
可选的,所述确定模块,包括:第二确定子模块,被配置为从所述至少一个关键词中确定出所述图片包括的物体图像对应的物体描述信息中的关键词;累加子模块,被配置为将第二确定子模块确定出的关键词的权重值进行累加得到所述图片与所述网页的主题之间的相关度。
可选的,所述装置还包括:调整模块,被配置为根据所述图片在所述网页中的位置对应的调整系数,调整所述图片与所述网页的主题之间的相关度。
可选的,所述装置还包括:发送模块,被配置为在接收到终端发送的所述网页的链接地址和当前显示的所述网页的图片的图片标识时,根据所述链接地址和所述图片标识向所述终端发送所述网页包括的至少一张图片,所述至少一张图片中的每张图片与所述网页的主题之间的相关度低于所述终端当前显示的图片与所述网页的主题之间的相关度。
根据本公开实施例的第三方面,提供了一种生成链接信息的装置,包括:处理器;用于存储所述处理器的可执行指令的存储器;其中,所述处理器被配置为:从网页中获取至少一个关键词,以及获取所述网页中的图片包括的物体图像对应的物体描述信息,所述至少一个关键词中的每个关键词用于指示所述网页的主题;根据所述每个关键词以及所述图片包括的物体图像对应的物体描述信息,确定所述图片与所述网页的主题之间的相关度;选择与所述网页的主题的相关度满足第一预设条件的图片;将所述选择的图片作为所述网页的封面,并将所述网页的封面结合所述网页的链接地址合成所述网页的链接信息。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种生成链接信息的方法的流程图;
图2A是根据另一示例性实施例示出的一种生成链接信息的方法的流程图;
图2B是根据一示例性实施例示出的一种从网页中获取关键词的流程图;
图3是根据一示例性实施例示出的一种获取图片中物体图像对应物体的名称的示意图;
图4是根据一示例性实施例示出的一种展示网页的连接信息中图片的示意图;
图5是根据一示例性实施例示出的一种生成链接信息的装置的框图;
图6是根据另一示例性实施例示出的一种生成链接信息的装置的框图;
图7是根据一示例性实施例示出的一种用于生成链接信息的装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开的实施例提供的生成链接信息的方法,各步骤的执行主体可以是服务器。例如,该服务器可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务中心。在实际实现时,该服务器可以是提供网页浏览功能的应用程序的后台服务器,也可是提供即时通讯功能的应用程序的后台服务器。为了便于描述,在下述各个方法实施例中,仅以各步骤的执行主体为服务器进行举例说明,但对此不构成限定。
图1是根据一示例性实施例示出的一种生成链接信息的方法的流程图,如图1所示,该生成链接信息的方法可以包括如下几个步骤。
在步骤110中,从网页中获取至少一个关键词,获取到的每个关键词用于指示该网页的主题。
本步骤在实际实现时,服务器可利用复旦自然语言处理(Fudan NaturalLanguage Processing,FNLP)、词频-逆向文件频率(Term Frequency–Inverse DocumentFrequency,TF-IDF)等自然语言处理领域中成熟的关键词提取技术,从网页的文字中提取关键词,且提取的每个关键词能够用于指示该网页的主题。
在步骤120中,获取该网页中的图片包括的物体图像对应的物体描述信息。
在步骤130中,根据每个关键词以及该图片包括的物体图像对应的物体描述信息,确定该图片与该网页的主题之间的相关度。
在步骤140中,选择与该网页的主题的相关度满足第一预设条件的图片。
在步骤150中,将选择的图片作为该网页的封面,并将该网页的封面结合该网页的链接地址合成该网页的链接信息。
综上所述,本公开实施例中提供的生成链接信息的方法,通过获取网页中用于指示该网页的主题的关键词;对于每张图片,根据获取的每个关键词以及该图片包括的物体图像对应的物体描述信息,确定该图片与该网页之间的主题的相关度;选择与该网页的主题的相关度满足第一预设条件的图片;将选择的图片作为该网页的封面,并将该网页的封面结合该网页的链接地址合成该网页的链接信息;由于能够根据网页中各图片与该网页主题之间的相关度,从该网页中选择能够表达该网页的主题的图片,解决了相关技术中利用网页中第一张图片的缩略图来指示网页的主题的准确性低的问题,达到了提高网页链接信息中的图片指示网页的主题的准确性的效果。
图2A是根据另一示例性实施例示出的一种生成链接信息的方法的流程图,如图2A所示,该生成链接信息的方法可以包括如下几个步骤。
在步骤210中,从网页中获取至少一个关键词,获取到的每个关键词用于指示该网页的主题。
请参考图2B,本步骤可通过如图2B所示的几个步骤实现。
在步骤211中,服务器获取该网页中的文字内容,服务器对该网页中的文字内容进行分词得到至少一个词语,统计每个词语在该网页中出现的频次。
在步骤212中,服务器根据每个词语的频次计算每个词语的权重值,词语的权重值用于指示该词语与该网页的主题相关的程度。
本步骤可通过以下两种方式实现:
第一种,对于该网页中的每个词语,服务器利用该词语的频次与该词语对应的逆文档频率(Inverse Document Frequency,IDF)相乘,将乘积确定为该词语的权重值。
服务器可预先利用本地的文档库计算多个词语的IDF。对于该多个词语中的每个词语,服务器存储该词语与该词语的IDF之间的对应关系。因此,服务器在计算某一词语在网页中的权重值时,可在本地查询该词语对应的IDF,利用该IDF与该词语在该网页中出现的频次相乘,得到该词语在该网页中的权重值。
服务器利用本地的文档库计算一词语对应的ID时,可利用以下公式进行计算,该公式为:N为文档库中的文档的总数量,M为文档库中包含该词语的文档的数量。
若文档库中包含该词语的文档的数量越少,表明该词语的常见程度越低,结合IDF的计算公式可知,该词语对应的IDF越高。若该词语的常见程度低,却在某一网页中频繁的出现,则表明该词语与该网页的主题相关的程度高。由于每个词语的权重值是利用该词语在该网页中出现的频次与该词语对应的IDF相乘得到的,因此每个词语在网页中的权重值能够指示该词语与该网页的主题相关的程度,且权重值越高的词语与该网页的主题相关的程度越高。
第二种,服务器从网页中获取特殊格式的词语,将这些词语的权重值设置为第一数值;对于每个非特殊格式的词语,将该词语的频次与该词语对应的IDF的乘积确定为该词语的权重值。
特殊格式是指网页的主题或摘要的字体格式,字体格式可以包括字体大小、字体颜色等等。特殊格式的文字数目占整个网页的总文字数目的比重较低,非特征格式的文字数目占整个网页的总文字数目的比重较高。
一般来讲,网页中除了正文,还可以包括用于指示正文主题的标题文字和或摘要,标题和摘要的文字数量远小于正文的文字数量。而且,标题文字的尺寸大于正文文字的尺寸,和/或,标题文字的颜色与正文文字的颜色不相同。因此,网页中特殊格式的词语可能是该网页的标题中的词语,与网页的主题相关度较高。
服务器可确定该网页中各个词语的字体格式,然后再从中确定出非特殊格式的词语和特殊格式的词语。举例来讲,服务器检测一网页中各个词语的字体大小,检测出98%的词语的字号为小四,1%的词语的字号为小三,1%的词语的字号为小二,此时特殊格式包括字号小二和字号小三。
服务器通过将特殊格式的词语的权重值设置为第一数值,且第一数值的数值较大,可提高特殊格式的词语成为该网页的关键词的可能性。例如,开发人员设置的第一数值高于平均权重值,该平均权重值为服务器历史上计算的其他网页中关键词的权重值的平均值。
在步骤213中,服务器将该至少一个词语中权重值满足第二预设条件的词语确定为关键词。
本步骤的实现可通过以下三种实现方式:
第一种,第二预设条件为权重值高于预设的第二数值的词语,相应的本步骤可以为:服务器将权重值高于第二数值的词语确定为关键词。
第二种,第二预设条件为从该至少一个词语中选择权重值最高的n个词语,n为正整数,相应的本步骤可以为:服务器按照各词语的权重值由高至低或由低至高的顺序对各词语进行排序,将权重值最高的n个词语确定为关键词。
第三种,第二预设条件为从该至少一个词语中权重值最高n个词语,n为正整数,n与该至少一个词语的总数目m之间的比值不超过第二预定比例,相应的本步骤可以为:服务器按照各词语的权重值由高至低或由低至高的顺序对各词语进行排序,根据该至少一个词语的总数目m和第二预定比例确定数值n,将权重值最高的n个词语确定为关键词。
在步骤220中,获取该网页中的每张图片包括的物体图像对应的物体描述信息。
本步骤的实现可以为:对于网页中的每张图片,服务器利用边缘检测技术确定出该图片中可能存在物体图像的各个区域,然后采用深层神经网络(deep neural network)对每个区域进行处理生成一个特征矢量,将该特征矢量输入卷积神经网络(ConvolutionNeural Network,CNN)分类器得该区域内物体图像对应物体的名称,根据该名称获取该物体图像对应的描述信息。
其中,服务器根据物体图像对应物体的名称获取该物体图像对应的描述信息的实现可通过以下两种方式:
第一种,服务器将获取到的物体图像对应物体的名称确定为该物体图像对应的描述信息。
举例来讲,请参考图3,服务器可识别出标号31所指示的区域中物体图像对应的名称为相机,标号32所指示的区域中物体图像对应的名称为明星A,则相机和明星A为该图片包括的物体图像对应的物体描述信息。
第二种,服务器存储了多个物体的名称对应的物体描述信息,服务器在获取到物体图像对应物体的名称时,获取与该名称对应的物体描述信息。其中,每个物体图像对应的物体描述信息包括该物体图像对应物体的名称,还包括其他用于描述该物体的词语。
举例来讲,仍旧参见图3,服务器可识别出标号31所指示的区域中物体图像对应的名称为相机,该名称对应的物体描述信息可以包括相机、照相机、摄影、摄像,则标号31所指示的区域中物体图像对应的物体描述信息包括相机、照相机、摄影、摄像。
需要说明的是,CNN分类器可以是针对多个物体(包括物品和/或人物)训练得到的,这里所讲的人物可包括明星、卡通人物等等。
本步骤在实际实现时,服务器可直接采用自动图像说明(Automatic ImageCaptioning)技术或基于区域的卷积神经网络(Region Based CNN,R-CNN)技术或基于区域的快速卷积神经网络(Fast Region Based CNN,fast-RCNN)技术,确定出每张图片中的物体图像对应物体的名称,根据每个物体图像对应物体的名称获取每个物体图像对应的物体描述信息。
步骤210和步骤220的执行不分先后顺序,可同时执行,也可先执行步骤210再执行步骤220,也可先执行步骤220再执行步骤210。
在步骤230中,根据每个关键词以及每张图片包括的物体图像对应的物体描述信息,确定每张图片与该网页的主题之间的相关度。
本步骤的实现可以通过以下两种方式实现:
第一种,对于该网页中的任一张图片,统计该图片包括的物体图像对应的物体描述信息所包括的关键词的数量,将该数量确定为该图片与该网页的主题之间的相关度。
举例来讲,网页中某张图片中包含相机的图像和人物明星A的图像,相机的图像对应的物体描述信息包括相机、照相机、摄影、摄像,人物明星A的图像对应的物体描述信息为明星A。若从该网页中获取的关键词为“相机”和“明星A”,则该图片与该网页的主题之间的相关度可以利用数值2来表示。
第二种,对于该网页中的任一张图片,从网页的关键词中确定出该图片包括的物体图像对应的物体描述信息所包括的关键词;将确定出的关键词的权重值进行累加得到该图片与该网页的主题之间的相关度。
举例来讲,某张图片包括的物体图像对应的物体描述信息包括相机、照相机、摄影、摄像、和明星A,从该网页中确定出的关键词为相机、明星A以及代言,则服务器将词语“相机”的权重值与词语“明星A”的权重值进行累加,得到该图片与该网页的主题之间的相关度。
需要说明的是,执行步骤230后,可直接执行步骤250,也可执行步骤240后再执行步骤250。
在步骤240中,根据每张图片在该网页中的位置对应的调整系数,分别调整每张图片与该网页的主题之间的相关度。
本步骤的实现可以为:服务器确定每张图片在该网页中的位置,这里所讲的位置是指该图片在该网页中的展示顺序;利用每张图片在该网页中的位置对应的调整系数乘以该图片与该网页的主题之间的相关度,得到调整后的该图片与该网页的主题之间的相关度。
服务器确定每张图片在该网页中的位置可以通过以下两种方式实现:
第一种,服务器获取该网页的源代码,确定每张图片对应路径代码出现的先后顺序,每张图片对应路径代码出现的先后顺序为每张图片在网页中的展示顺序,每张图片对应的路径代码用于指示该图片的获取途径。
第二种,服务器检测该网页中每张图片与该网页顶部的距离,按照由小到大的顺序对各张图片进行排序得到每张图片的展示顺序。
服务器预先设定了每个展示顺序对应的调整系数,展示顺序越靠前对应的调整系数越高,展示顺序越靠后对应的调整系数越低。服务确定出某图片在该网页中展示顺序后,利用该展示顺序对应的调整系数乘以该图片与该网页的主题之间的相关度,得到调整后的该图片与该网页的主题之间的相关度。
在步骤250中,选择与该网页的主题的相关度满足第一预设条件的图片,将选择的图片作为该网页的封面,并将该网页的封面结合该网页的链接地址合成该网页的链接信息。
这里所讲的第一预设条件可以包括与网页的主题相关度最高的一个图片、与网页的主题相关度最高的第一数量张图片中的任意一张或多张图片、与网页的主题相关度大于预设阈值的一张或多张图片,本实施例对第一预设条件不作具体的限定。
本步骤的实现可以为:选择与该网页的主题的相关度满足第一预设条件的图片,利用选择的每张图片的缩略图以及该网页的链接地址生成该网页的链接信息。其中,每张图片的缩略图是指每张图片经压缩处理后得到的小图。
在步骤260中,将该网页的链接信息发送至终端。
其中,这里所讲的终端是支持网页浏览功能的各类终端,可以为诸如手机、平板电脑、膝上型便携计算机等移动终端。
本步骤的实现可以为:服务器在接收到包含该网页的链接地址的即时通信消息时,确定该即时通信消息对应的接收账号,向利用该接收账号登录即时通信应用的终端(本实施例中称为“目的终端”)发送该网页的链接信息,以便该目的终端接收该链接信息并展示该链接信息中的缩略图。
请参见图4(1),用户D用终端上的即时通信应用向用户B发送即时通信消息,该即时通信消息为https://www.baidu.com/s?ie=utf-8&f=8&rsv*。服务器接收到该即时通信消息后,服务器向目的终端(用户B登录该即时通信应用所使用的终端)发送该链接地址对应网页的链接信息,该链接信息中包含该网页的标题“明星A代言××牌相机”、该网页的链接地址和一张图片。目的终端接收到该网页的链接信息后,展示该图片以及该网页的标题,如图4(2)所示。用户B可利用手指点击标号41所指示的区域,触发目的终端根据该链接地址展示该链接地址对应的网页。
终端在获取到网页的链接信息后,可展示该链接信息中的图片,终端实时展示的该链接信息中的图片为步骤270中所涉及的当前显示的该网页的图片。
在步骤270中,在接收到终端发送的该网页的链接地址和当前显示的该网页的图片的图片标识时,根据该链接地址和该图片标识向终端发送该网页包括的至少一张图片,该至少一张图片中的每张图片与该网页的主题之间的相关度低于终端当前显示的图片与网页的主题之间的相关度。
根据该链接地址和该图片标识向终端发送该网页包括的至少一张图片可通过以下两种方式实现:
第一种,服务器获取该图片标识对应的图片与该网页的主题之间的相关度得到第一相关度,从该网页中的与该网页的主题间相关度低于第一相关度的图片中,获取与该网页的主题间的相关度最高的预设第二数量张图片或者获取与该网页的主题间的相关度最高的m张图片,m与网页包括的图片总数目之间的比值为第三预定比例,将这些图片的缩略图发送至该终端。
第二种,服务器获取该图片标识对应的图片与该网页的主题之间的相关度得到第二相关度,获取该网页中的与该网页的主题之间的相关度低于第二相关度的所有图片,将这些图片的缩略图全部发送至该终端。
举例来讲,仍旧参见图4(2),标号41所指示的区域内还显示了按钮42,用户可利用手指点击按钮42,触发终端向服务器发送标号41所指示的区域内展示的图片的图片标识和链接地址“https://www.baidu.com/s?ie=utf-8&f=8&rsv*”。服务器接收到该图片标识和该网页链接后,向终端发送该链接地址对应网页中的一张图片,以便终端展示该图片,该图片与该网页的主题之间的相关度低于终端当前显示的图片与该网页的主题之间的相关度。
综上所述,本公开实施例中提供的生成链接信息的方法,通过获取网页中用于指示该网页的主题的关键词;对于每张图片,根据获取的每个关键词以及该图片包括的物体图像对应的物体描述信息,确定该图片与该网页之间的主题的相关度;选择与该网页的主题的相关度满足第一预设条件的图片;将选择的图片作为该网页的封面,并将该网页的封面结合该网页的链接地址合成该网页的链接信息;由于能够根据网页中各图片与该网页主题之间的相关度,从该网页中选择能够表达该网页的主题的图片,解决了相关技术中利用网页中第一张图片的缩略图来指示网页的主题的准确性低的问题,达到了提高网页链接信息中的图片指示网页的主题的准确性的效果。
一般来讲,网页中每张图片的展示位置一定程度也能够反映该图片与该网页主题的相关程度,展示位置越靠前的图片与该网页的主题相关程度的可能越高。通过利用每张图片的展示位置对应的调整系数,调整该图片与该网页的主题的相关度,达到了修正该图片与该网页的主题的相关度的效果。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图5是根据一示例性实施例示出的一种生成链接信息的装置的框图,该生成链接信息的装置可以通过软件、硬件或者两者的结合实现成为服务器的部分或者全部。该生成链接信息的装置可以包括:获取模块510、确定模块520、选择模块530和生成模块540。
获取模块510,被配置为从网页中获取至少一个关键词,以及获取该网页中的图片包括的物体图像对应的物体描述信息,该至少一个关键词中的每个关键词用于指示该网页的主题;
确定模块520,被配置为根据获取模块510获取到的每个关键词以及图片包括的物体图像对应的物体描述信息,确定图片与该网页的主题之间的相关度;
选择模块530,被配置为选择与该网页的主题的相关度满足第一预设条件的图片;
生成模块540,被配置为根据选择模块530选择的图片作为该网页的封面,并将该网页的封面结合该网页的链接地址合成该网页的链接信息。
可选的,请参见图6,图6是根据另一示例性实施例示出的一种生成链接信息的装置的框图,获取模块510,包括:分词子模块511、计算子模块512和第一确定子模块513。
分词子模块511,被配置为对该网页中的文字进行分词得到至少一个词语,统计该至少一个词语中每个词语在该网页中出现的频次;
计算子模块512,被配置为根据分词子模块511进行分词得到的每个词语的频次计算每个词语的权重值,词语的权重值用于指示词语与该网页的主题相关的程度;
第一确定子模块513,被配置为将该至少一个词语中权重值满足第二预设条件的词语确定为关键词。
可选的,请参见图6,确定模块520,包括:第二确定子模块521和累加子模块522。
第二确定子模块521,被配置为从该至少一个关键词中确定出该图片包括的物体图像对应的物体描述信息中的关键词;
累加子模块522,被配置为将第二确定子模块521确定出的关键词的权重值进行累加得到该图片与该网页的主题之间的相关度。
可选的,请参见图6,该生成链接信息的装置,还包括:调整模块550。
调整模块550,被配置为根据该图片在该网页中的位置对应的调整系数,调整该图片与该网页的主题之间的相关度。
可选的,请参见图6,该生成链接信息的装置,还包括:发送模块560。
发送模块560,被配置为在接收到终端发送的该网页的链接地址和当前显示的该网页的图片的图片标识时,根据该链接地址和该图片标识向终端发送该网页包括的至少一张图片,该至少一张图片中的每张图片与该网页的主题之间的相关度低于终端当前显示的图片与该网页的主题之间的相关度。
综上所述,本公开实施例中提供的生成链接信息的装置,通过获取网页中用于指示该网页的主题的关键词;对于每张图片,根据获取的每个关键词以及该图片包括的物体图像对应的物体描述信息,确定该图片与该网页之间的主题的相关度;选择与该网页的主题的相关度满足第一预设条件的图片;将选择的图片作为该网页的封面,并将该网页的封面结合该网页的链接地址合成该网页的链接信息;由于能够根据网页中各图片与该网页主题之间的相关度,从该网页中选择能够表达该网页的主题的图片,解决了相关技术中利用网页中第一张图片的缩略图来指示网页的主题的准确性低的问题,达到了提高网页链接信息中的图片指示网页的主题的准确性的效果。
需要说明的一点是,上述实施例提供的装置在实现其生成链接信息的功能时,仅以上述各个功能模块的划分进行举例说明,实际应用中,可以根据实际需要而将上述功能分配由不同的功能模块完成,即将服务器的内容结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开一示例性实施例还提供了一种生成链接信息的装置,能够实现本公开提供的生成链接信息的方法。该装置包括:处理器,以及用于存储处理器的可执行指令的存储器。其中,处理器被配置为:
从网页中获取至少一个关键词,以及获取该网页中的图片包括的物体图像对应的物体描述信息,该至少一个关键词中的每个关键词用于指示该网页的主题;
根据每个关键词以及该图片包括的物体图像对应的物体描述信息,确定该图片与该网页的主题之间的相关度;
选择与该网页的主题的相关度满足第一预设条件的图片;
将选择的图片作为该网页的封面,并将该网页的封面结合该网页的链接地址合成该网页的链接信息。
图7是根据一示例性实施例示出的一种用于生成链接信息的装置700的框图。例如,装置700可以被提供为一服务器。参照图7,装置700包括处理组件722,其进一步包括一个或多个处理器,以及由存储器732所代表的存储器资源,用于存储可由处理部件722执行的指令,例如应用程序。存储器732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件722被配置为执行指令,以执行上述生成链接信息的方法。
装置700还可以包括一个电源组件726被配置为执行装置700的电源管理,一个有线或无线网络接口750被配置为将装置700连接到网络,和一个输入输出(I/O)接口758。装置700可以操作基于存储在存储器732的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (11)
1.一种生成链接信息的方法,其特征在于,所述方法包括:
从网页中获取至少一个关键词,以及获取所述网页中的图片包括的物体图像对应的物体描述信息,所述至少一个关键词中的每个关键词用于指示所述网页的主题;
根据所述每个关键词以及所述图片包括的物体图像对应的物体描述信息,确定所述图片与所述网页的主题之间的相关度;
选择与所述网页的主题的相关度满足第一预设条件的图片;
将所述选择的图片作为所述网页的封面,并将所述网页的封面结合所述网页的链接地址合成所述网页的链接信息。
2.根据权利要求1所述的方法,其特征在于,所述从网页中获取至少一个关键词,包括:
对所述网页中的文字进行分词得到至少一个词语,统计所述至少一个词语中每个词语在所述网页中出现的频次;
根据所述每个词语的频次计算所述每个词语的权重值,词语的权重值用于指示所述词语与所述网页的主题相关的程度;
将所述至少一个词语中权重值满足第二预设条件的词语确定为关键词。
3.根据权利要求1所述的方法,其特征在于,所述根据所述每个关键词以及所述图片包括的物体图像对应的物体描述信息,确定所述图片与所述网页的主题之间的相关度,包括:
从所述至少一个关键词中确定出所述图片包括的物体图像对应的物体描述信息中的关键词;
将确定出的关键词的权重值进行累加得到所述图片与所述网页的主题之间的相关度。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述图片在所述网页中的位置对应的调整系数,调整所述图片与所述网页的主题之间的相关度。
5.根据权利要求1至4中任一所述的方法,其特征在于,所述方法还包括:
在接收到终端发送的所述网页的链接地址和当前显示的所述网页的图片的图片标识时,根据所述链接地址和所述图片标识向所述终端发送所述网页包括的至少一张图片,所述至少一张图片中的每张图片与所述网页的主题之间的相关度低于所述终端当前显示的图片与所述网页的主题之间的相关度。
6.一种生成链接信息的装置,其特征在于,所述装置包括:
获取模块,被配置为从网页中获取至少一个关键词,以及获取所述网页中的图片包括的物体图像对应的物体描述信息,所述至少一个关键词中的每个关键词用于指示所述网页的主题;
确定模块,被配置为根据所述获取模块获取到的每个关键词以及所述图片包括的物体图像对应的物体描述信息,确定所述图片与所述网页的主题之间的相关度;
选择模块,被配置为选择与所述网页的主题的相关度满足第一预设条件的图片;
生成模块,被配置为根据所述选择模块选择的图片作为所述网页的封面,并将所述网页的封面结合所述网页的链接地址合成所述网页的链接信息。
7.根据权利要求6所述的装置,其特征在于,所述获取模块,包括:
分词子模块,被配置为对所述网页中的文字进行分词得到至少一个词语,统计所述至少一个词语中每个词语在所述网页中出现的频次;
计算子模块,被配置为根据所述分词子模块进行分词得到的每个词语的频次计算所述每个词语的权重值,词语的权重值用于指示所述词语与所述网页的主题相关的程度;
第一确定子模块,被配置为将所述至少一个词语中权重值满足第二预设条件的词语确定为关键词。
8.根据权利要求6所述的装置,其特征在于,所述确定模块,包括:
第二确定子模块,被配置为从所述至少一个关键词中确定出所述图片包括的物体图像对应的物体描述信息中的关键词;
累加子模块,被配置为将第二确定子模块确定出的关键词的权重值进行累加得到所述图片与所述网页的主题之间的相关度。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
调整模块,被配置为根据所述图片在所述网页中的位置对应的调整系数,调整所述图片与所述网页的主题之间的相关度。
10.根据权利要求6至9中任一所述的装置,其特征在于,所述装置还包括:
发送模块,被配置为在接收到终端发送的所述网页的链接地址和当前显示的所述网页的图片的图片标识时,根据所述链接地址和所述图片标识向所述终端发送所述网页包括的至少一张图片,所述至少一张图片中的每张图片与所述网页的主题之间的相关度低于所述终端当前显示的图片与所述网页的主题之间的相关度。
11.一种生成链接信息的装置,其特征在于,包括:
处理器;
用于存储所述处理器的可执行指令的存储器;
其中,所述处理器被配置为:
从网页中获取至少一个关键词,以及获取所述网页中的图片包括的物体图像对应的物体描述信息,所述至少一个关键词中的每个关键词用于指示所述网页的主题;
根据所述每个关键词以及所述图片包括的物体图像对应的物体描述信息,确定所述图片与所述网页的主题之间的相关度;
选择与所述网页的主题的相关度满足第一预设条件的图片;
将所述选择的图片作为所述网页的封面,并将所述网页的封面结合所述网页的链接地址合成所述网页的链接信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710257885.7A CN107066596A (zh) | 2017-04-19 | 2017-04-19 | 生成链接信息的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710257885.7A CN107066596A (zh) | 2017-04-19 | 2017-04-19 | 生成链接信息的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107066596A true CN107066596A (zh) | 2017-08-18 |
Family
ID=59600553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710257885.7A Pending CN107066596A (zh) | 2017-04-19 | 2017-04-19 | 生成链接信息的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107066596A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107765942A (zh) * | 2017-09-29 | 2018-03-06 | 努比亚技术有限公司 | 一种实现信息显示的方法、设备及计算机可读存储介质 |
CN107918656A (zh) * | 2017-11-17 | 2018-04-17 | 北京奇虎科技有限公司 | 基于视频标题的视频封面提取方法及装置 |
CN108009147A (zh) * | 2017-12-26 | 2018-05-08 | 掌阅科技股份有限公司 | 电子书封面生成方法、电子设备及计算机存储介质 |
CN109685085A (zh) * | 2017-10-18 | 2019-04-26 | 阿里巴巴集团控股有限公司 | 一种主图提取方法以及装置 |
CN110781420A (zh) * | 2018-07-30 | 2020-02-11 | 上海哔哩哔哩科技有限公司 | 基于编辑器的网页封面自动生成方法、装置和存储介质 |
CN111209424A (zh) * | 2020-01-10 | 2020-05-29 | 北京字节跳动网络技术有限公司 | 一种图片展示方法及装置 |
CN112925987A (zh) * | 2019-11-20 | 2021-06-08 | 浙江大搜车软件技术有限公司 | 页面分享方法、装置、计算机设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103425644A (zh) * | 2012-05-14 | 2013-12-04 | 腾讯科技(深圳)有限公司 | 网页正文中图片的提取方法及装置 |
CN104063489A (zh) * | 2014-07-04 | 2014-09-24 | 百度在线网络技术(北京)有限公司 | 一种确定网页图片相关度及显示检索结果的方法及装置 |
CN104123363A (zh) * | 2014-07-21 | 2014-10-29 | 北京奇虎科技有限公司 | 网页主图提取方法及装置 |
CN104866524A (zh) * | 2015-04-10 | 2015-08-26 | 大连交通大学 | 一种商品图像精细分类方法 |
-
2017
- 2017-04-19 CN CN201710257885.7A patent/CN107066596A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103425644A (zh) * | 2012-05-14 | 2013-12-04 | 腾讯科技(深圳)有限公司 | 网页正文中图片的提取方法及装置 |
CN104063489A (zh) * | 2014-07-04 | 2014-09-24 | 百度在线网络技术(北京)有限公司 | 一种确定网页图片相关度及显示检索结果的方法及装置 |
CN104123363A (zh) * | 2014-07-21 | 2014-10-29 | 北京奇虎科技有限公司 | 网页主图提取方法及装置 |
CN104866524A (zh) * | 2015-04-10 | 2015-08-26 | 大连交通大学 | 一种商品图像精细分类方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107765942A (zh) * | 2017-09-29 | 2018-03-06 | 努比亚技术有限公司 | 一种实现信息显示的方法、设备及计算机可读存储介质 |
CN109685085A (zh) * | 2017-10-18 | 2019-04-26 | 阿里巴巴集团控股有限公司 | 一种主图提取方法以及装置 |
CN109685085B (zh) * | 2017-10-18 | 2023-09-26 | 阿里巴巴集团控股有限公司 | 一种主图提取方法以及装置 |
CN107918656A (zh) * | 2017-11-17 | 2018-04-17 | 北京奇虎科技有限公司 | 基于视频标题的视频封面提取方法及装置 |
CN108009147A (zh) * | 2017-12-26 | 2018-05-08 | 掌阅科技股份有限公司 | 电子书封面生成方法、电子设备及计算机存储介质 |
CN110781420A (zh) * | 2018-07-30 | 2020-02-11 | 上海哔哩哔哩科技有限公司 | 基于编辑器的网页封面自动生成方法、装置和存储介质 |
CN112925987A (zh) * | 2019-11-20 | 2021-06-08 | 浙江大搜车软件技术有限公司 | 页面分享方法、装置、计算机设备和存储介质 |
CN111209424A (zh) * | 2020-01-10 | 2020-05-29 | 北京字节跳动网络技术有限公司 | 一种图片展示方法及装置 |
CN111209424B (zh) * | 2020-01-10 | 2023-05-12 | 北京字节跳动网络技术有限公司 | 一种图片展示方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107066596A (zh) | 生成链接信息的方法和装置 | |
CN109685121B (zh) | 图像检索模型的训练方法、图像检索方法、计算机设备 | |
US20180060419A1 (en) | Generating Prompting Keyword and Establishing Index Relationship | |
CN103246678B (zh) | 一种网页内容预览方法和装置 | |
CN107766349B (zh) | 一种生成文本的方法、装置、设备及客户端 | |
US20090002368A1 (en) | Method, apparatus and a computer program product for utilizing a graphical processing unit to provide depth information for autostereoscopic display | |
CN104298429A (zh) | 一种基于输入的信息展示方法和输入法系统 | |
CN105718558B (zh) | 页面中图片的显示方法和装置 | |
US12080065B2 (en) | Augmented reality items based on scan | |
CN117036546B (zh) | 图片生成方法及装置、存储介质、计算设备 | |
CN110457596A (zh) | 一种资源推荐处理方法及装置 | |
CN106777143A (zh) | 一种新闻聚合方法及新闻聚合服务器 | |
CN111727438A (zh) | 用于图像识别处理的对象分类 | |
CN112015485A (zh) | 页面展示方法、装置、电子设备及存储介质 | |
US20240347078A1 (en) | Video Generation Circuits, Video Generation Method, and Electronic Devices | |
CN110049180A (zh) | 拍摄姿势推送方法和装置、智能终端 | |
CN113194256B (zh) | 拍摄方法、装置、电子设备和存储介质 | |
CN104731361B (zh) | 一种确定候选词条的可选择区域的方法与装置 | |
CN103927341B (zh) | 一种获取场景信息的方法及装置 | |
CN110781440A (zh) | 容器高度的调整方法、装置、计算机设备及存储介质 | |
US20220067991A1 (en) | Computerized system and method for automatically generating original memes for insertion into modified messages | |
CN107256251A (zh) | 一种应用软件搜索方法、装置及服务器 | |
CN111429213A (zh) | 用于衣物模拟试穿的方法及装置、设备 | |
CN108959346B (zh) | 确定文本文件缩略信息的方法、装置、介质及设备 | |
CN115209232B (zh) | 一种视频处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170818 |
|
RJ01 | Rejection of invention patent application after publication |