CN108205532A - 生成网页的方法和装置 - Google Patents

生成网页的方法和装置 Download PDF

Info

Publication number
CN108205532A
CN108205532A CN201611168916.3A CN201611168916A CN108205532A CN 108205532 A CN108205532 A CN 108205532A CN 201611168916 A CN201611168916 A CN 201611168916A CN 108205532 A CN108205532 A CN 108205532A
Authority
CN
China
Prior art keywords
content element
content
page
correlation
objective information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611168916.3A
Other languages
English (en)
Inventor
秦首科
陈志扬
张泽明
韩聪
姚欣洪
慎涵
王楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201611168916.3A priority Critical patent/CN108205532A/zh
Publication of CN108205532A publication Critical patent/CN108205532A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/972Access to data in other repository systems, e.g. legacy data or dynamic Web page generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种生成网页的方法和装置。该方法的一具体实施方式包括:获取用户的浏览目标信息;对根据上述浏览目标信息所抓取的网页的页面内容进行识别,以得到至少一个内容单元集合,其中,每个上述内容项集合包括至少一个内容单元;计算上述浏览目标信息与各个内容单元集合所包含的内容的第一相关度;基于上述内容单元集合,按照上述第一相关度由高到低的排列顺序生成新网页。该实施方式可以根据用户的浏览目标信息重新生成新网页,使网页内容具有针对性,可以有效缩短用户获取信息的路径,从而提高信息呈现效率。

Description

生成网页的方法和装置
技术领域
本申请涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及生成网页的方法和装置。
背景技术
用户通过互联网在终端浏览信息时,往往通过后台服务器从相应站点获取页面并发送至终端以展示给用户。目前的通用站点,大多具有固定的结构,例如包括一个导航页,导航页上包括多个网站导航,每个导航链接到不同的页面,且页面通常是静态的。例如,根据用户输入的搜索词后呈现出导航页后,还需要用户从导航页多次点击才能找到所需内容。因此,由于网页内容较固定,导致用户获取信息的路径较长,从而存在信息呈现效率较低的问题。
发明内容
本申请的目的在于提出一种改进的生成网页的方法和装置,来解决以上背景技术部分提到的技术问题。
一方面,本申请提供了一种生成网页的方法,该方法包括:获取用户的浏览目标信息;对根据上述浏览目标信息所抓取的网页的页面内容进行识别,以得到至少一个内容单元集合,其中,每个上述内容项集合包括至少一个内容单元;计算上述浏览目标信息与各个内容单元集合所包含的内容的第一相关度;基于上述内容单元集合,按照上述第一相关度由高到低的排列顺序生成新网页。
在一些实施例中,上述获取用户的浏览目标信息包括:获取用户的个性化信息,上述个性化信息包括以下至少一种:历史搜索记录、当前的搜索关键词、历史浏览记录、年龄、性别、职业;根据上述个性化信息生成上述浏览目标信息。
在一些实施例中,上述计算上述浏览目标信息与各个内容单元集合所包含的内容的第一相关度包括:对各个内容单元集合提取集合关键词;将上述浏览目标信息与各个内容单元集合的上述集合关键词进行匹配;根据匹配结果确定各个上述第一相关度。
在一些实施例中,上述方法还包括:针对每个内容单元集合,计算上述浏览目标信息与该内容单元集合中的各个内容单元的第二相关度;将该内容单元集合内的内容单元,按照上述第二相关度由高到低进行排列。
在一些实施例中,上述计算上述浏览目标信息与该内容单元集合中的各个内容单元的第二相关度包括:提取各个内容单元的单元关键词;将上述浏览目标信息与上述单元关键词进行匹配;根据匹配结果确定上述浏览目标信息与各个内容单元的第二相关度。
在一些实施例中,所生成的新网页包括:用于显示上述内容单元集合的第一页面和用于显示每个内容单元集合中的内容单元的第二页面。
在一些实施例中,所生成的新网页还包括:用于显示上述第二页面中各内容单元的内容详情的第三页面。
在一些实施例中,上述页面内容包括以下至少一种:页面中的导航结构、导航标签、上述导航标签所链接页面的页面内容。
第二方面,本申请提供了一种生成网页的装置,该装置包括:获取模块,配置用于获取用户的浏览目标信息;识别模块,配置用于对根据上述浏览目标信息所抓取的网页的页面内容进行识别,以得到至少一个内容单元集合,其中,每个上述内容项集合包括至少一个内容单元;第一计算模块,配置用于计算上述浏览目标信息与各个内容单元集合所包含的内容的第一相关度;生成模块,配置用于基于上述内容单元集合,按照上述第一相关度由高到低的排列顺序生成新网页。
在一些实施例中,上述获取模块包括:获取单元,配置用于获取用户的个性化信息,上述个性化信息包括以下至少一种:历史搜索记录、当前的搜索关键词、历史浏览记录、年龄、性别、职业;生成单元,配置用于根据上述个性化信息生成上述浏览目标信息。
在一些实施例中,上述第一计算模块包括:第一提取单元,配置用于对各个内容单元集合提取集合关键词;第一匹配单元,配置用于将上述浏览目标信息与各个内容单元集合的上述集合关键词进行匹配;第一确定单元,配置用于根据匹配结果确定各个上述第一相关度。
在一些实施例中,上述装置还包括第二计算模块和排序模块,其中,针对每个内容单元集合:第二计算模块配置用于计算上述浏览目标信息与该内容单元集合中的各个内容单元的第二相关度;排序模块配置用于将该内容单元集合内的内容单元,按照上述第二相关度由高到低进行排列。
在一些实施例中,上述第二计算模块包括:第二提取单元,配置用于提取各个内容单元的单元关键词;第二匹配单元,配置用于将上述浏览目标信息与上述单元关键词进行匹配;第二确定单元,配置用于根据匹配结果确定上述浏览目标信息与各个内容单元的第二相关度。
在一些实施例中,所生成的新网页包括:用于显示上述内容单元集合的第一页面和用于显示每个内容单元集合中的内容单元的第二页面。在一些实施例中,所生成的新网页还包括:用于显示上述第二页面中各内容单元的内容详情的第三页面。
在一些实施例中,上述页面内容包括以下至少一种:页面中的导航结构、导航标签、上述导航标签所链接页面的页面内容。
本申请提供的生成网页的方法和装置,通过获取用户的浏览目标信息,然后对根据上述浏览目标信息所抓取的网页的页面内容进行识别,以得到至少一个内容单元集合,其中,每个内容项集合包括至少一个内容单元,接着计算浏览目标信息与各个内容单元集合所包含的内容单元的第一相关度,并基于内容单元集合按照第一相关度由高到低的排列顺序生成新网页,由于根据用户的浏览目标信息重新生成新网页,使网页内容具有针对性,可以有效缩短用户获取信息的路径,从而提高信息呈现效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出了可以应用本申请实施例的示例性系统架构;
图2是根据本申请的生成网页的方法的一个实施例的流程图;
图3a、图3b是根据本申请的生成网页的方法的一个应用场景的示意图;
图4是根据本申请的生成网页的方法的另一个实施例的流程图;
图5是根据本申请的生成网页的装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、网络103和服务器104。网络103用以在终端设备101、102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
终端设备101、102可以通过网络103与服务器104交互,以接收或发送消息等。终端设备101、102上可以安装有各种通讯客户端应用,例如浏览器应用、搜索类应用、地图类应用、购物类应用、理财类应用、社交平台应用、邮箱客户端、即时通信工具等等。
终端设备101、102可以是支持浏览器应用、搜索类应用等等安装于其上的各种电子设备,包括但不限于智能手机、智能手表、平板电脑、个人数字助理、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器104可以是提供各种服务的服务器。例如服务器104可以是对终端设备101、102的浏览器应用、搜索类应用等等提供支持的后台服务器等。服务器可以对接收到的数据进行存储、生成等处理,并将处理结果反馈给终端设备。
需要说明的是,本申请实施例所提供的生成网页的方法一般通过服务器104执行,但不排除可以通过终端设备101、102执行的可能。相应地,本申请实施例所提供的生成网页的装置一般设于服务器104中,但不排除可以设于终端设备101、102中的可能。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
请参考图2,其示出了生成网页的方法的一个实施例的流程200。本实施例主要以该方法应用于有一定运算能力的电子设备中来举例说明,该电子设备例如可以是图1示出的服务器104。该生成网页的方法,包括以下步骤:
步骤201,获取用户的浏览目标信息。
在本实施例中,电子设备可以从本地或远程地获取至少一个用户通过终端浏览信息时的浏览目标信息。其中,这里的浏览目标信息可以用来表示用户进行搜索或浏览网页所要了解的信息。
通常,用户利用终端上安装的网页浏览器来搜索和浏览网页,这时,用户可以通过输入搜索关键词、输入网址或者点击网页浏览器中呈现的网页中的链接来向服务器发起网页浏览请求以获得网页。在本实施例中,上述网页可以包括html格式、xhtml格式、asp格式、php格式、jsp格式、shtml格式、nsp格式、xml格式的网页或者其它未来将开发的格式的网页(只要这种格式的网页文件可以用浏览器打开并浏览其包含的图片、动画、文字等内容)。此时,浏览目标信息例如可以是用户通过终端上运行的浏览器应用等进行信息搜索时,通过输入字符、点击超链接等方式选择的关键词等。
实践中,当电子设备是为终端上运行的浏览器应用等提供支持的后台服务器,其可以通过有线连接方式或者无线连接方式远程地通过终端采集或获取终端浏览器搜索日志中的搜索关键词等作为浏览目标信息,当电子设备是运行浏览器应用等的终端时,其可以从本地获取搜索关键词等作为浏览目标信息。另外,当用户通过点击超链接等方式选择关键词时,电子设备也可以从本地获取在本地存储的超链接词汇等作为浏览目标信息。其中,上述无线连接方式包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
在本实施例的一些可选实现方式中,电子设备可以根据用户的个性化信息生成浏览目标信息。其中,个性化信息可以是表示用户个体特性的信息,例如可以包括但不限于以下至少一种:历史搜索记录、当前的搜索关键词、历史浏览记录、年龄、性别、职业等等。电子设备可以在用户通过网页浏览器进行搜索或发起网页浏览请求时,获取用户的个性化信息,生成与当前的搜索或浏览行为相关的浏览目标信息,例如,用户经常浏览水质检测类的网页,当用户输入搜索词“检测”时,或者当用户浏览自来水公司网站时,电子设备可以生成浏览目标信息“水质检测”。其中,根据用户的个性化信息生成浏览目标信息可以通过机器学习方法训练模型的方式进行,例如将获得的多对个性化信息、最终选择浏览的信息作为样本通过机器学习方法训练个性化信息中各项对最终选择浏览的信息贡献的权重,根据训练得到的权重预测本次的目标浏览信息作为浏览目标信息等等,在此不再赘述。在一些实现中,电子设备还可以在用户进行搜索时,获取至少包括当前的搜索关键词的个性化信息,此时个性化信息还可以包括历史搜索记录、历史浏览记录、年龄、性别、职业等等中的至少一种,电子设备可以从当前的搜索关键词之外的个性化信息中提取与当前搜索关键词相关联的信息,根据关联信息和当前的搜索关键词生成浏览目标信息。
步骤202,对根据上述浏览目标信息所抓取的网页的页面内容进行识别,以得到至少一个内容单元集合。
在本实施例中,电子设备可以接着根据上述浏览目标信息抓取相应的网页,之后再利用各种分析手段对对所抓取的网页的页面内容进行识别和分析,从而得到至少一个内容单元集合。其中,每个内容单元集合至少包括一个内容单元。
这里,内容单元可以用于表示页面内容中的一个语义单元。例如,关于某进行检测业务的集团公司,其页面内容中的内容单元可以包括公司简介、公司优势、水质检测、饮用水检测、工业锅炉水质检测、化妆品检测、汽车检测、食品安全检测等等。
电子设备可以通过统计分析方式和/或语义分析方式等对上述网页的页面内容进行分析。例如,电子设备可以按标点对上述网页的页面内容分段,对各段内容中存在的各个词语的出现频率进行统计和排序,选取出现频率排序靠前的一个词语作为相应段内容的关键词,根据关键词判断相邻两段内容的关键词相似度(如jaccard相似度),将相似度低于预设阈值的相邻两段内容区分为两个内容单元,相似度高于预设阈值的相邻两段内容作为同一个内容单元。
在一些实现中,上述网页的页面内容可以包括以下至少一种:页面中的导航结构、导航标签、导航标签所链接页面的页面内容,例如上述网页可以是某公司网站首页,其页面可以分为多个模块(如公司简介、新闻等),每个模块可以具有至少一个导航标签以链接到其他页面,导航结构可以包括各导航标签在页面中的位置分布等。此时,电子设备可以对页面中的导航结构、导航标签和/或导航标签所链接页面的页面内容统一进行分析,得到至少一个内容单元集合。
其中,以上内容单元集合的形式例如可以为:内容单元集合名称1{内容单元11、内容单元12……}、内容单元集合名称2{内容单元21、内容单元22……}等等。作为示例,对某公司网站首页页面进行分析得到的内容单元集合例如可以包括:基本情况{简介、优势、荣誉…};检测项目{水检测(水质检测、饮用水检测、工业锅炉水质检测…)、消费品检测、化妆品检测、汽车检测、食品安全检测…};送检流程{水送检流程、电子送检流程、食品送检流程…};新闻资讯{企业新闻,行业新闻…}。这里,内容单元集合名称或者内容单元名称可以是人为指定的,也可以是从内容单元中提取出来的关键词等,在此不再赘述。可选地,内容单元集合还可以包括不同类别的内容单元,如上述例子中的内容单元集合“检测项目”中包括“水检测”类别的内容单元“水质检测、饮用水检测、工业锅炉水质检测…”以及“消费品检测”、“化妆品检测”、“汽车检测”、“食品安全检测”…类别的内容单元。
步骤203,计算上述浏览目标信息与各个内容单元集合所包含的内容的第一相关度。
在本实施例中,网页生成方法运行于电子设备可以通过预先存储的内容相关性的计算方法,以计算上述浏览目标信息与各个内容单元集合所包含的内容的第一相关度。
这里,内容相关性可以通过文本匹配方法或者采用余弦相似度(cosinesimilarity)算法、Jaccard系数之类的公知的文本相似度计算方法来计算。实践中,电子设备可以对各个内容单元集合提取集合关键词;之后,电子设备可以通过对浏览目标信息和集合关键词进行文本匹配方法确定第一相关度。例如,电子设备可以对浏览目标信息进行切词得到目标词,其中,目标词和集合关键词分别可以为一个或多个。具体地,如果在集合关键词中匹配到目标词,则第一相关度为预设值(如1),或者,在集合关键词中匹配到目标词时,将目标词与集合关键词的个数比作为第一相关度等等。电子设备也可以得到上述浏览目标信息与各个内容单元集合所包含的内容单元的文本相似度作为第一相关度。以Jaccard系数方法为例,电子设备还可以通过目标词与集合关键词之间共有的词的数目/目标词与集合关键词一起包括的词的数目计算目标词和集合关键词的文本相似度作为第一相关度。
步骤204,基于内容单元集合,按照上述第一相关度由高到低的排列顺序生成新网页。
在本实施例中,电子设备接着可以将上述内容单元集合按照第一相关度由高到低的顺序进行排列,并由此生成新网页。
这里,电子设备可以将上述内容单元集合按照第一相关度由高到低进行排列生成新网页,电子设备也可以仅将第一相关度高于预设相关度阈值的内容单元集合按照第一相关度由高到低进行排列生成新网页,电子设备还可以按照第一相关度由高到低选取预设个数的内容单元集合,并根据所选取的内容单元集合按照第一相关度由高到低排列生成新网页。在一些实现中,内容单元集合数量较多,超过网页所能容纳的内容量,电子设备可以根据网页所能容纳的内容量仅将部分内容单元集合生成新网页。在另一些实现中,内容单元集合数量较少,不能占满一个网页,电子设备可以将原网页的其他内容排列在内容单元集合之后生成新网页。
在本实施例的一些可选实现方式中,电子设备所生成的新网页可以包括用于显示内容单元集合的第一页面,还可以包括用于显示每个内容单元集合中的内容单元的第二页面。例如,第一页面上的内容单元集合可以仅包括内容单元集合名,也可以包括内容单元集合中内容单元,此时,内容单元可以通过概要、关键词、超链接等形式显示,内容单元可以全部列出,也可以仅列出部分,如果用户触摸、点击或鼠标悬停在第一页面上的内容单元集合名或内容单元时,可以通过弹窗、页面跳转等形式显示第二页面。第二页面可以对内容单元集合中各内容单元罗列展示。在一些实现中,各内容单元还可以对应一个用于显示内容单元的内容详情的第三页面。同样,如果用户触摸、点击或鼠标悬停在第一页面上的内容单元集合名或内容单元时,可以通过弹窗、页面跳转等形式显示第三页面。
作为一个应用场景,本实施例的生成网页方法例如可以应用于为移动终端运行的浏览器应用提供支持的后台服务器。一般的,用户可以通过终端上运行的浏览器应用进行搜索、输入网址或点击超链接等向服务器发起页面请求,例如图3a所示的页面为是后台服务器根据用户的页面请求获取用户浏览目标信息后抓取的网页。如图3a所示,该网页中包括多个导航标签31,用户可以点击导航标签31进入导航标签31所链接的页面,导航标签31在网页中的位置等信息构成该网页的导航结构。实践中,导航标签31所链接到的页面可能还包括导航标签,且用户并不一定能准确把握自己所要浏览的内容通过哪个导航标签可以链接相应页面,因此,用户可能需要多次点击导航标签才能找到自己所需的页面及内容。通过执行本实施例的生成网页的方法,后台服务器对图3a示出的页面及导航标签31所链接的页面的页面内容重新排布,例如可以得到如图3b所示的第一页面301发送至用户所持终端。第一页面301中各页面单元集合按照与用户的搜索目标的第一相关度进行排序,其中,页面单元集合1与用户的搜索目标的第一相关度最高。在图3b示出的网页中,通过点击第一页面301中页面单元集合1右侧的“更多”标识,可以切换到第二页面302,其中,第二页面302展示出了页面单元集合1中的各页面单元。进一步地,通过用户对第二页面302上页面单元集合1中的各页面单元中详情1的点击选择,可以切换到第三页面303显示该详情1。可选地,当内容单元包括多个类别时,第二页面302中显示的还可以是各个内容单元类别,点击某个类别所切换到的第三页面可以显示该类别的内容单元(如第二页面302),再点击该类别的某内容单元显示内容详情页面(如第三页面303)。
在本实施例中,由于根据用户的浏览目标信息重新生成新网页,使网页内容具有针对性,可以有效缩短用户获取信息的路径,从而提高信息呈现效率。特别地,对于移动终端,如手机,其屏幕较小,展示内容有限,本实施例的生成网页的方法所生成的网页有利于在有限的页面范围内展示最可能满足用户需要的信息,信息呈现效率大大提高。
请参考图4,其示出了生成网页的方法的另一个实施例的流程400,流程400包括以下步骤:
步骤401,获取用户的浏览目标信息。
在本实施例中,电子设备可以从本地或远程地获取至少一个用户通过终端进行搜索的浏览目标信息。其中,这里的浏览目标信息可以用来表示用户进行搜索或浏览网页所要了解的信息。例如,浏览目标信息可以是用户进行搜索时使用的搜索关键词等。在一些实现中,电子设备还可以根据用户的个性化信息生成浏览目标信息。
步骤402,对根据上述浏览目标信息所抓取的网页的页面内容进行识别,以得到至少一个内容单元集合。
在本实施例中,电子设备可以接着根据上述浏览目标信息抓取相应的网页,之后再利用各种分析手段对对所抓取的网页的页面内容进行识别和分析,从而得到至少一个内容单元集合。其中,每个内容单元集合至少包括一个内容单元。这里,内容单元可以用于表示页面内容中的一个语义单元。
步骤403,计算上述浏览目标信息与各个内容单元集合所包含的内容的第一相关度。
在本实施例中,网页生成方法运行于电子设备可以通过预先存储的内容相关性的计算方法,以计算上述浏览目标信息与各个内容单元集合所包含的内容的第一相关度。这里,内容相关性可以通过文本匹配方法或者采用余弦相似度(cosine similarity)算法、Jaccard系数之类的公知的文本相似度计算方法来计算。电子设备可以对各个内容单元集合提取集合关键词;之后,电子设备可以通过对浏览目标信息和集合关键词进行文本匹配方法确定第一相关度,也可以得到上述浏览目标信息与各个内容单元集合所包含的内容的文本相似度作为第一相关度。
步骤404,针对每个内容单元集合,计算上述浏览目标信息与该内容单元集合中的各个内容单元的第二相关度。
在本实施例中,电子设备接着还可以针对每个内容单元集合,计算上述浏览目标信息与该内容单元集合中的各个内容单元的第二相关度。其中,第二相关度用于表示浏览目标信息与内容单元的内容相关性,电子设备可以通过预先存储的内容相关性的计算方法计算第二相关度。
内容相关性可以通过文本匹配方法或者采用余弦相似度(cosine similarity)算法、Jaccard系数之类的公知的文本相似度计算方法来计算。实践中,电子设备可以对各个内容单元提取单元关键词;之后,电子设备可以通过对浏览目标信息和单元关键词进行文本匹配方法确定第二相关度。例如,电子设备可以对浏览目标信息进行切词得到目标词,其中,目标词和单元关键词分别可以为一个或多个。如果电子设备在单元关键词中匹配到目标词,则第二相关度为预设值(如1),或者,在集合关键词中匹配到目标词时,将目标词与集合关键词的个数比作为第二相关度等等。电子设备也可以得到上述浏览目标信息与各个内容单元的文本相似度作为第一相关度。以Jaccard系数方法为例,电子设备还可以通过目标词与单元关键词之间共有的词的数目/目标词与单元关键词一起包括的词的数目计算目标词和单元关键词的文本相似度作为第二相关度。
步骤405,将各个内容单元集合内的内容单元,按照第二相关度由高到低进行排列。
在本实施例中,电子设备还可以将各个内容单元集合内的内容单元按照第二相关度由高到低进行排列。例如,对某公司网站首页页面进行分析得到的内容单元集合例如可以包括:基本情况{简介、优势、荣誉…};检测项目{水检测(水质检测、饮用水检测、工业锅炉水质检测…)、消费品检测、化妆品检测、汽车检测、食品安全检测…};送检流程{水送检流程、电子送检流程、食品送检流程…};新闻资讯{企业新闻,行业新闻…}。浏览目标信息为化妆品检测,内容单元集合按照第一相关度排列结果为检测项目、送检流程、基本情况、新闻资讯,其中,对于检测项目这个内容单元集合来说,内容单元按照第二相关度排序可以为:{化妆品检测、水检测(水质检测、饮用水检测、工业锅炉水质检测…)、消费品检测、汽车检测、食品安全检测…}。
步骤406,基于内容单元集合,按照上述第一相关度由高到低的排列顺序生成新网页。
在本实施例中,电子设备接着可以将上述内容单元集合按照第一相关度由高到低的顺序进行排列,并由此生成新网页。此时,所生成的新网页上包括按照第一相关度由高到低的顺序进行排列的内容单元集合,每个内容单元集合又包括按照第二相关度由高到低的顺序进行排列的内容单元。在一些实现中,电子设备所生成的新网页可以包括用于显示内容单元集合的第一页面,还可以包括用于显示每个内容单元集合中的内容单元的第二页面。其中,第二页面上的内容单元按照第二相关度由高到低的顺序进行排列。可选地,第二页面上的各内容单元还可以对应一个用于显示内容单元的内容详情的第三页面。
在本实施例中,上述实现流程中的步骤401、步骤402、步骤403和步骤406分别与前述实施例中的步骤201、步骤202、步骤203和步骤204基本相同,在此不再赘述。
从图4中可以看出,与图2对应的实施例不同的是,本实施例中生成网页的方法的流程400增加了计算浏览目标信息与各内容单元的第二相关度的步骤404、按照第二相关度对内容单元进行排序的步骤405,通过对内容单元集合中各内容单元的排序,进一步提高了内容单元展示的针对性。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种生成网页的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于电子设备中。
如图5所示,本实施例的生成网页的装置500包括:获取模块501、识别模块502、第一计算模块503及生成模块504。其中,获取模块501可以配置用于获取用户的浏览目标信息;识别模块502可以配置用于对根据上述浏览目标信息所抓取的网页的页面内容进行识别,以得到至少一个内容单元集合,其中,每个上述内容项集合包括至少一个内容单元;第一计算模块503可以配置用于计算上述浏览目标信息与各个内容单元集合所包含的内容的第一相关度;生成模块504可以配置用于基于上述内容单元集合,按照上述第一相关度由高到低的排列顺序生成新网页。
在本实施例的一些可选实现方式中,获取模块501可以包括:获取单元(未示出),可以配置用于获取用户的个性化信息,上述个性化信息可以包括但不限于以下至少一种:历史搜索记录、当前的搜索关键词、历史浏览记录、年龄、性别、职业等等;生成单元(未示出),可以配置用于根据上述个性化信息生成上述浏览目标信息。
在本实施例的一些可选实现方式中,第一计算模块503可以包括:第一提取单元(未示出),配置用于对各个内容单元集合提取集合关键词;第一匹配单元(未示出),配置用于将上述浏览目标信息与各个内容单元集合的上述集合关键词进行匹配;第一确定单元(未示出),配置用于根据匹配结果确定各个上述第一相关度。
在本实施例的一些可选实现方式中,装置500还可以包括第二计算模块(未示出)和排序模块(未示出),其中,针对每个内容单元集合:第二计算模块,配置用于对每个内容单元集合,计算上述浏览目标信息与该内容单元集合中的各个内容单元的第二相关度;排序模块,配置用于将该内容单元集合内的内容单元按照上述第二相关度由高到低进行排列。
在本实施例的一些可选实现方式中,上述第二计算模块包括:第二提取单元,配置用于提取各个内容单元的单元关键词;第二匹配单元,配置用于将上述浏览目标信息与上述单元关键词进行匹配;第二确定单元,配置用于根据匹配结果确定上述浏览目标信息与各个内容单元的第二相关度。
在本实施例的一些可选实现方式中,所生成的新网页可以包括:用于显示上述内容单元集合的第一页面和用于显示每个内容单元集合中的内容单元的第二页面。在一些实现中,所生成的新网页还可以包括:用于显示上述第二页面中各内容单元的内容详情的第三页面。
在一些实施例中,上述页面内容包括但不限于以下至少一种:页面中的导航结构、导航标签、上述导航标签所链接页面的页面内容等等。
值得说明的是,生成网页的装置500中记载的诸模块与参考图2描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征同样适用于生成网页的装置500及其中包含的模块或单元,在此不再赘述。
本领域技术人员可以理解,上述生成网页的装置500还包括一些其他公知结构,例如处理器、存储器等,为了不必要地模糊本公开的实施例,这些公知的结构在图5中未示出。
下面参考图6,其示出了适于用来实现本申请实施例的电子设备的计算机系统600的结构示意图。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。
本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括获取模块、识别模块、第一计算模块及生成模块。其中这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,获取模块还可以被描述为“配置用于获取用户的浏览目标信息的模块”。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中的装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端中的计算机可读存储介质。上述计算机可读存储介质存储有一个或者一个以上程序,当该程序被一个或者一个以上的处理器执行时,使得上述设备:获取用户的浏览目标信息;对根据上述浏览目标信息所抓取的网页的页面内容进行识别,以得到至少一个内容单元集合,其中,每个上述内容项集合包括至少一个内容单元;计算上述浏览目标信息与各个内容单元集合所包含的内容的第一相关度;基于上述内容单元集合,按照上述第一相关度由高到低的排列顺序生成新网页。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (16)

1.一种生成网页的方法,其特征在于,所述方法包括:
获取用户的浏览目标信息;
对根据所述浏览目标信息所抓取的网页的页面内容进行识别,以得到至少一个内容单元集合,其中,每个所述内容项集合包括至少一个内容单元;
计算所述浏览目标信息与各个内容单元集合所包含的内容的第一相关度;
基于所述内容单元集合,按照所述第一相关度由高到低的排列顺序生成新网页。
2.根据权利要求1所述的方法,其特征在于,所述获取用户的浏览目标信息包括:
获取用户的个性化信息,所述个性化信息包括以下至少一种:历史搜索记录、当前的搜索关键词、历史浏览记录、年龄、性别、职业;
根据所述个性化信息生成所述浏览目标信息。
3.根据权利要求1所述的方法,其特征在于,所述计算所述浏览目标信息与各个内容单元集合所包含的内容的第一相关度包括:
对各个内容单元集合提取集合关键词;
将所述浏览目标信息与各个内容单元集合的所述集合关键词进行匹配;
根据匹配结果确定各个所述第一相关度。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对每个内容单元集合,
计算所述浏览目标信息与该内容单元集合中的各个内容单元的第二相关度;
将该内容单元集合内的内容单元,按照所述第二相关度由高到低进行排列。
5.根据权利要求4所述的方法,其特征在于,所述计算所述浏览目标信息与该内容单元集合中的各个内容单元的第二相关度包括:
提取各个内容单元的单元关键词;
将所述浏览目标信息与所述单元关键词进行匹配;
根据匹配结果确定所述浏览目标信息与各个内容单元的第二相关度。
6.根据权利要求1所述的方法,其特征在于,所生成的新网页包括:
用于显示所述内容单元集合的第一页面和用于显示每个内容单元集合中的内容单元的第二页面。
7.根据权利要求6所述的方法,其特征在于,所生成的新网页还包括:
用于显示所述第二页面中各内容单元的内容详情的第三页面。
8.根据权利要求1-7中任一所述的方法,其特征在于,所述页面内容包括以下至少一种:页面中的导航结构、导航标签、所述导航标签所链接页面的页面内容。
9.一种生成网页的装置,其特征在于,所述装置包括:
获取模块,配置用于获取用户的浏览目标信息;
识别模块,配置用于对根据所述浏览目标信息所抓取的网页的页面内容进行识别,以得到至少一个内容单元集合,其中,每个所述内容项集合包括至少一个内容单元;
第一计算模块,配置用于计算所述浏览目标信息与各个内容单元集合所包含的内容的第一相关度;
生成模块,配置用于基于所述内容单元集合,按照所述第一相关度由高到低的排列顺序生成新网页。
10.根据权利要求9所述的装置,其特征在于,所述获取模块包括:
获取单元,配置用于获取用户的个性化信息,所述个性化信息包括以下至少一种:历史搜索记录、当前的搜索关键词、历史浏览记录、年龄、性别、职业;
生成单元,配置用于根据所述个性化信息生成所述浏览目标信息。
11.根据权利要求9所述的装置,其特征在于,所述第一计算模块包括:
第一提取单元,配置用于对各个内容单元集合提取集合关键词;
第一匹配单元,配置用于将所述浏览目标信息与各个内容单元集合的所述集合关键词进行匹配;
第一确定单元,配置用于根据匹配结果确定各个所述第一相关度。
12.根据权利要求9所述的装置,其特征在于,所述装置还包括第二计算模块和排序模块,其中,针对每个内容单元集合:
所述第二计算模块配置用于计算所述浏览目标信息与该内容单元集合中的各个内容单元的第二相关度;
所述排序模块配置用于将该内容单元集合内的内容单元,按照所述第二相关度由高到低进行排列。
13.根据权利要求12所述的装置,其特征在于,所述第二计算模块包括:
第二提取单元,配置用于提取各个内容单元的单元关键词;
第二匹配单元,配置用于将所述浏览目标信息与所述单元关键词进行匹配;
第二确定单元,配置用于根据匹配结果确定所述浏览目标信息与各个内容单元的第二相关度。
14.根据权利要求9所述的装置,其特征在于,所生成的新网页包括:
用于显示所述内容单元集合的第一页面和用于显示每个内容单元集合中的内容单元的第二页面。
15.根据权利要求14所述的装置,其特征在于,所生成的新网页还包括:
用于显示所述第二页面中各内容单元的内容详情的第三页面。
16.根据权利要求9-15中任一所述的装置,其特征在于,所述页面内容包括以下至少一种:页面中的导航结构、导航标签、所述导航标签所链接页面的页面内容。
CN201611168916.3A 2016-12-16 2016-12-16 生成网页的方法和装置 Pending CN108205532A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611168916.3A CN108205532A (zh) 2016-12-16 2016-12-16 生成网页的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611168916.3A CN108205532A (zh) 2016-12-16 2016-12-16 生成网页的方法和装置

Publications (1)

Publication Number Publication Date
CN108205532A true CN108205532A (zh) 2018-06-26

Family

ID=62602567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611168916.3A Pending CN108205532A (zh) 2016-12-16 2016-12-16 生成网页的方法和装置

Country Status (1)

Country Link
CN (1) CN108205532A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881354A (zh) * 2020-07-28 2020-11-03 平安科技(深圳)有限公司 内容推荐方法、装置、电子设备及介质
CN116389572A (zh) * 2023-03-09 2023-07-04 数影星球(杭州)科技有限公司 一种基于浏览器的网站下载重定向方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102142033A (zh) * 2010-05-20 2011-08-03 百度在线网络技术(北京)有限公司 一种在搜索结果中提供相关子链接信息的方法和设备
CN104699841A (zh) * 2015-03-31 2015-06-10 北京奇虎科技有限公司 提供搜索结果的列表摘要信息的方法和装置
CN105426508A (zh) * 2015-11-30 2016-03-23 百度在线网络技术(北京)有限公司 网页生成方法和装置
CN105786951A (zh) * 2015-12-31 2016-07-20 北京金山安全软件有限公司 一种网页中内容块的提取方法、装置及服务器
CN105975639A (zh) * 2016-07-04 2016-09-28 北京百度网讯科技有限公司 搜索结果排序方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102142033A (zh) * 2010-05-20 2011-08-03 百度在线网络技术(北京)有限公司 一种在搜索结果中提供相关子链接信息的方法和设备
CN104699841A (zh) * 2015-03-31 2015-06-10 北京奇虎科技有限公司 提供搜索结果的列表摘要信息的方法和装置
CN105426508A (zh) * 2015-11-30 2016-03-23 百度在线网络技术(北京)有限公司 网页生成方法和装置
CN105786951A (zh) * 2015-12-31 2016-07-20 北京金山安全软件有限公司 一种网页中内容块的提取方法、装置及服务器
CN105975639A (zh) * 2016-07-04 2016-09-28 北京百度网讯科技有限公司 搜索结果排序方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881354A (zh) * 2020-07-28 2020-11-03 平安科技(深圳)有限公司 内容推荐方法、装置、电子设备及介质
CN116389572A (zh) * 2023-03-09 2023-07-04 数影星球(杭州)科技有限公司 一种基于浏览器的网站下载重定向方法和系统
CN116389572B (zh) * 2023-03-09 2024-01-30 数影星球(杭州)科技有限公司 一种基于浏览器的网站下载重定向方法和系统

Similar Documents

Publication Publication Date Title
US11669579B2 (en) Method and apparatus for providing search results
CN103870973B (zh) 基于电子信息的关键词提取的信息推送、搜索方法及装置
CN105243087B (zh) It资讯聚合阅读个性化推荐方法
CN107679217B (zh) 基于数据挖掘的关联内容提取方法和装置
US9436768B2 (en) System and method for pushing and distributing promotion content
CN109145280A (zh) 信息推送的方法和装置
CN107220386A (zh) 信息推送方法和装置
CN107908789A (zh) 用于生成信息的方法和装置
CN105139237A (zh) 信息推送的方法和装置
US20080005105A1 (en) Visual and multi-dimensional search
CN104216881A (zh) 一种个性化标签的推荐方法及装置
CN110827112B (zh) 深度学习的商品推荐方法、装置、计算机设备及存储介质
WO2016135905A1 (ja) 情報処理システム及び情報処理方法
CN102063453A (zh) 一种用于基于用户的需求进行搜索的方法和设备
CN106776860A (zh) 一种搜索摘要生成方法及装置
CN111160019B (zh) 一种舆情监测的方法、装置及系统
CN107526718A (zh) 用于生成文本的方法和装置
Díez et al. Towards explainable personalized recommendations by learning from users’ photos
CN107832338A (zh) 一种识别核心产品词的方法和系统
CN107977678A (zh) 用于输出信息的方法和装置
CN110020312A (zh) 提取网页正文的方法和装置
CN110363206B (zh) 数据对象的聚类、数据处理及数据识别方法
CN113806588A (zh) 搜索视频的方法和装置
CN108280081B (zh) 生成网页的方法和装置
CN106202312B (zh) 一种用于移动互联网的兴趣点搜索方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination