CN105740460B - 网页搜集推荐方法和装置 - Google Patents

网页搜集推荐方法和装置 Download PDF

Info

Publication number
CN105740460B
CN105740460B CN201610102827.2A CN201610102827A CN105740460B CN 105740460 B CN105740460 B CN 105740460B CN 201610102827 A CN201610102827 A CN 201610102827A CN 105740460 B CN105740460 B CN 105740460B
Authority
CN
China
Prior art keywords
pages
sub
semantic
similarity
semantic structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610102827.2A
Other languages
English (en)
Other versions
CN105740460A (zh
Inventor
刘耀
龚幸伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Original Assignee
INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA filed Critical INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Priority to CN201610102827.2A priority Critical patent/CN105740460B/zh
Publication of CN105740460A publication Critical patent/CN105740460A/zh
Application granted granted Critical
Publication of CN105740460B publication Critical patent/CN105740460B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例提供了网页搜集推荐方法和装置,所述方法包括:获取与关键词相关的多个种子网页;确定出种子网页的语义概念;对各种子网页的语义概念进行聚类,得到语义结构;获取各种子网页所链接的多个网页作为多个扩展网页;确定出每个扩展网页与语义结构之间的相似度;根据相似度不低于第一相似度阈值的扩展网页,更新种子网页;周期性地根据更新的种子网页进化语义结构并更新扩展网页、以及根据进化的语义结构更新种子网页,直到达到预设的网页获取终止条件;对最后一个周期更新的各种子网页进行排序和推荐。利用本发明实施例,可以更加准确全面地为用户搜集和推荐网页,便于用户查找到需要的网页,可以提升用户的体验。

Description

网页搜集推荐方法和装置
技术领域
本发明涉及网络数据采集技术领域,具体而言,本发明涉及一种网页搜集推荐方法和装置。
背景技术
随着互联网的迅猛发展,网络上的信息量日益增多。用户通常利用搜索引擎在互联网中查找需要的网页信息。
搜索引擎(Search Engine)预先根据指定的策略、利用网络爬虫从互联网上抓取网页,接收到用户输入的关键词后,计算关键词与预先抓取的各网页之间的相关度,选择相关度较高的网页推荐并展示给用户。
目前,网络爬虫主要包括传统爬虫和主题爬虫。
一种利用传统爬虫的网页搜集推荐方法主要包括:抓取一个或若干个初始网页后,从初始网页开始,获得当前网页上的URL(Uniform Resource Locator,统一资源定位器),根据获得的URL抓取网页;在抓取网页的过程中,不断从当前网页上抽取新的URL,根据新的URL继续抓取网页,直到满足预设的条件停止抓取网页,并存储已抓取到的网页;以在互联网上搜集尽可能多的网页推荐给用户。
然而,利用上述方法搜集推荐的众多网页中,通常包含大量用户不需要的网页,例如噪声网页,网页搜集推荐的准确性较低、效率低下。导致用户需要从大量的网页中,人工筛选所需要的网页,造成用户获取其所需要的网页的效率低下,用户体验不佳。
主题爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的网页。与传统爬虫不同,主题爬虫并不追求大的网页覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。
一种利用主题爬虫的网页搜集推荐方法通常包括:根据用户输入的关键词,抓取一个或若干个网页作为主题的种子网页(或确定主题);抓取其它网页及其链接,根据指定的网页分析算法计算其它网页与种子网页(或主题)的相似度,过滤与种子网页(或主题)相似度较低的链接,保留与种子网页(或主题)相似度较高的链接并将其放入等待抓取的URL队列;然后,根据指定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到预设的条件,停止选择URL并抓取对应的网页进行存储,并将存储的网页推荐给用户。
然而,利用主题爬虫的网页搜集推荐方法通常会出现遗漏用户需要的网页的问题,造成用户查找不全所需要的网页,降低了用户的体验。
综上,现有的网页搜集推荐方法存在网页推荐准确性较低、效率低下、或者容易遗漏网页的缺陷。
发明内容
本发明针对现有的网页搜集方式的缺点,提出一种网页搜集推荐方法和装置,用以解决现有技术存在网页搜集推荐准确性较低、或效率低下,或者容易遗漏网页的问题,以提升网页推荐的准确性或效率,或降低遗漏网页的几率。
本发明的实施例根据一个方面,提供了一种网页搜集推荐方法,包括:
获取与用户输入的关键词相关的多个网页作为多个种子网页;
根据种子网页中词语之间的出现关联度,确定出该种子网页的语义概念;对各种子网页的语义概念进行聚类,得到语义结构;
获取各种子网页所链接的多个网页作为多个扩展网页;
确定出每个扩展网页与所述语义结构之间的相似度;
根据相似度不低于第一相似度阈值的扩展网页,更新种子网页;
周期性地根据更新的种子网页进化语义结构并更新扩展网页、以及根据进化的语义结构更新种子网页,直到达到预设的网页获取终止条件;
对最后一个周期更新的各种子网页进行排序和推荐。
本发明的实施例根据另一个方面,还提供了一种网页搜集推荐装置,包括:
种子网页获取模块,用于获取与用户输入的关键词相关的多个网页作为多个种子网页;
语义结构创建模块,用于根据种子网页中词语之间的出现关联度,确定出该种子网页的语义概念;对各种子网页的语义概念进行聚类,得到语义结构;
扩展网页处理模块,用于获取各种子网页所链接的多个网页作为多个扩展网页;确定出每个扩展网页与所述语义结构之间的相似度;以及周期性地根据更新的种子网页更新扩展网页,直到达到预设的网页获取终止条件;
种子网页更新模块,用于根据相似度不低于第一相似度阈值的扩展网页,更新种子网页;以及周期性地根据进化的语义结构更新种子网页;
语义结构进化模块,用于周期性地根据更新的种子网页进化语义结构;
网页推荐模块,用于对最后一个周期更新的各种子网页进行排序和推荐。
本发明实施例中,获取与用户输入的关键词相关的多个网页作为多个种子网页;根据种子网页中词语之间的出现关联度,确定出该种子网页的语义概念;对各种子网页的语义概念进行聚类,得到语义结构;获取各种子网页所链接的多个网页作为多个扩展网页;确定出每个扩展网页与语义结构之间的相似度;根据相似度不低于第一相似度阈值的扩展网页,更新种子网页;周期性地根据更新的种子网页进化语义结构并更新扩展网页、以及根据进化的语义结构更新种子网页,直到达到预设的网页获取终止条件;对最后一个周期更新的各种子网页进行排序和推荐;可以使得推荐的网页在语义上与用户输入的关键词具有较高的相关性,提升网页推荐的准确性和效率;并且语义结构实际上是包括了与关键词的语义相关的词语和/或短语,例如关键词的同义词或近义词,因此,利用本发明实施例可以搜集到不包含关键词但是包含其同义词或近义词的网页进行推荐,从而大大降低了遗漏网页的几率,便于用户查找到需要的网页,提升了用户的体验。
而且,本发明实施例中,周期性地根据更新的种子网页进化语义结构并更新扩展网页、以及根据进化的语义结构更新种子网页。进而本发明实施例,可以逐步进化的语义结构,并逐步根据进化的语义结构更新种子网页;进一步提升最后一个周期更新的各种子网页与进化的语义结构之间的相似度,从而提升网页搜集推荐的准确性和效率,进一步降低网页遗漏的几率,便于用户查找到需要的网页,提升了用户的体验。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例的网页搜集推荐方法的流程示意图;
图2为本发明实施例的语义结构的特例的示意图;
图3为本发明实施例的网页搜集推荐装置的内部结构的框架示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本发明实施例中,获取与用户输入的关键词相关的多个网页作为多个种子网页;根据种子网页中词语之间的出现关联度,确定出该种子网页的语义概念;对各种子网页的语义概念进行聚类,得到语义结构;语义结构中包括至少一个语义概念簇,同一语义概念簇中包括互相之间相似度较高(即语义接近的)词语、短语等,例如同义词和近义词等等。
本发明实施例中,获取各种子网页所链接的多个网页作为多个扩展网页;确定出每个扩展网页与语义结构之间的相似度;根据相似度不低于第一相似度阈值的扩展网页,更新种子网页;周期性地根据更新的种子网页进化语义结构并更新扩展网页、以及根据进化的语义结构更新种子网页,直到达到预设的网页获取终止条件;对最后一个周期更新的各种子网页进行排序和推荐;可以使得推荐的网页在语义上与用户输入的关键词具有较高的相关性,提升网页推荐的准确性和效率;并且语义结构实际上是包括了与关键词的语义相关的词语和/或短语,例如关键词的同义词或近义词,因此,利用本发明实施例可以搜集到不包含关键词但是包含其同义词或近义词的网页进行推荐,从而大大降低了遗漏网页的几率,便于用户查找到需要的网页,提升了用户的体验。
而且,本发明实施例中,周期性地根据更新的种子网页进化语义结构并更新扩展网页、以及根据进化的语义结构更新种子网页。进而本发明实施例,可以逐步进化的语义结构,并逐步根据进化的语义结构更新种子网页;进一步提升最后一个周期更新的各种子网页与进化的语义结构之间的相似度,从而提升网页搜集推荐的准确性和效率,进一步降低网页遗漏的几率,便于用户查找到需要的网页,提升了用户的体验。
下面结构附图具体介绍本发明实施例的技术方案。
本发明实施例提供了一种网页搜索推荐方法,该方法的流程示意图如图1所示,包括如下步骤:
S101:获取与用户输入的关键词相关的多个网页作为多个种子网页。
具体地,接收到用户输入的关键词后,搜索获取包括该关键词的网页的链接,例如URL(Uniform Resource Locator,统一资源定位器);从获取的网页的链接中筛除掉推广链接(例如广告链接)后,根据指定的规则,选择指定数目的链接;获取选择的链接的网页作为种子网页。
S102:根据种子网页中词语之间的出现关联度,确定出该种子网页的语义概念。
具体地,对于获取的每个种子网页,从该种子网页中提取出文本,包括标题和正文;根据文本中的标点符号对该种子网页的文本进行分句,得到该种子网页的至少一个句子。
对于该种子网页的每个句子,对该句子进行分词,得到该句子的词语集合。
较佳地,对于种子网页的每个句子,对该句子进行分词后,还可以进行去除停用词、去除常用词等处理,得到该句子的词语集合。
例如,某一种子网页中的一个句子为“硫酸铜可以用于有机合成,无水盐用于催化转缩醛反应。”,对该句子进行分词后,得到该句子的词语集合{硫酸铜用于有机合成/无水盐用于催化反应/},该词语集合中/表示标点符号,去除了常用词“可以”。
种子网页中各句子的词语集合,组成了该种子网页的词语集合。
对于每个种子网页中每个句子的词语集合,计算出该词语集合中一对相邻词语的出现关联度,并判断该出现关联度是否低于预设的出现关联度阈值:
若判断结果为出现关联度不低于出现关联度阈值,则将该对相邻词语合并为短语后,继续计算该短语与后续相邻词语的出现关联度,并继续判断该短语与后续相邻词语的出现关联度是否低于出现关联度阈值。
若判断结果为出现关联度低于出现关联度阈值,则继续计算该词语集合中下一对相邻词语的出现关联度,并继续判断下一对相邻词语的出现关联度是否低于出现关联度阈值。
直到遍历该句子的词语集合中的所有词语,得到该句子的语义概念。
句子的语义概念可以至少包括如下项目之一:词语、短语。
例如,一个句子s的词语集合为{a b c},根据如下公式(1)计算出该句子中相邻词语a和b的出现关联度MIab
上述公式(1)中,freq(ab)、freq(a)、freq(b)分别表示词语a和b在种子网页中相邻出现的频次、词语a在种子网页中单独出现的频次、词语b在种子网页中单独出现的频次。
若MIab不低于出现关联度阈值,则将词语a和b合并为短语ab后,继续计算利用上述公式(1)计算短语ab与后续相邻词语c的出现关联度MIabc,并继续判断出现关联度MIabc是否低于出现关联度阈值。由于该句子的词语集合仅包括词语a、b和c,相当于遍历了该句子的词语集合中的所有词语;因此该句子的语义概念可以包括短语ab和词语c,也可以包括短语abc。
若MIab低于出现关联度阈值,则应当继续计算下一对相邻词语b和c的出现关联度MIbc,并继续判断出现关联度MIbc是否低于出现关联度阈值。由于该句子的词语集合仅包括词语a、b和c,相当于遍历了该句子的词语集合中的所有词语,因此该句子的语义概念可以包括词语a和短语bc,也可以包括词语a、b和c。
较佳地,还可以从种子网页的句子的语义概念中,去除一些较为通用的词语或者短语。
例如,计算出某一词语的TF-IDF(Term Frequency–Inverse DocumentFrequency,词频-逆文档频率)值,作为该词语的特征值,与预设的词语特征值阈值进行比较;若该特征值低于词语特征值阈值,则将该词语确定为通用词语进行去除。
将种子网页中各句子的语义概念,组成该种子网页的语义概念。
较佳地,将种子网页中各句子的经过通用词语和短语去除的语义概念,组成该种子网页的语义概念。
S103:对各种子网页的语义概念进行聚类,得到至少一个语义概念簇,组成语义结构。
具体地,利用聚类算法,对各种子网页的语义概念进行聚类,得到至少一个语义概念簇。聚类的具体方法为本领域技术人员所熟知,此处不再赘述。
较佳地,利用层次聚类算法,对各种子网页的语义概念进行聚类。
将聚类得到的至少一个语义概念簇,组成语义结构。
例如,如图2所示的语义结构中,包括第一、二、三和四语义概念簇。第一语义概念簇包括语义概念F、G、H和I,第二语义概念簇包括语义概念D和K,第三语义概念簇包括语义概念E和J,第四语义概念簇包括语义概念A、B、C。此处每个语义概念簇基本表示了用户输入关键词代表主题的某一方面。
较佳地,语义结构中包括语义概念、以及语义概念之间的关系。语义概念之间的关系包括语义概念簇之间的相似度、以及同一语义概念簇中各语义概念之间的相似度等等。
语义结构的同一语义概念簇中的各语义概念之间具有较高的基于语义的相似度。
例如,如图2所示的语义结构中,第四语义概念簇中的语义概念A、B和C可以是互为同义词或者近义词,互相之间具有较高的基于语义的相似度。
S104:获取各种子网页所链接的多个网页作为多个扩展网页。
具体地,获取各种子网页所链接的多个网页作为多个扩展网页。
较佳地,在获取各种子网页所链接的多个网页之前,可以提取出各种子网页中的链接文本。
链接文本可以至少包括如下项目之一:链接地址对应的字符串、以及链接锚文本。
例如,https://en.wikipedia.org/wiki/Kernel_(operating_system)为待推荐网页中的一个链接地址(URL),可以将链接地址转换为对应的字符串;例如,去除该链接地址的链接,得到该链接地址对应的字符串。
确定出每个链接文本的词语集合。
例如,可以通过分词,去停用词等处理手段,从上述例子的链接地址的字符串中提取出词语kernel,operating和system,组成链接地址的字符串的词语集合。
对于每个链接文本,根据该链接文本的词语集合,确定出该链接文本与语义结构之间的相似度。
获取相似度不低于第二相似度阈值的链接文本所链接的网页,作为多个扩展网页。
进一步,在获取相似度不低于第二相似度阈值的链接文本所链接的网页之前,还可以通过布隆过滤器判断该链接文本所链接的网页是否已经被获取过,若是,则忽略该链接文本所链接的网页;否则获取该链接文本所链接的网页;可以防止重复获取网页,减少获取网页的工作量,提高获取网页的效率。
S105:确定出每个扩展网页与语义结构之间的相似度。
本步骤中,对于每个扩展网页,从该扩展网页中提取出文本,包括标题和正文;根据文本中的标点符号对该扩展网页的文本进行分句,得到该扩展网页的至少一个句子。
对于该扩展网页的每个句子,对该句子进行分词,得到该句子的词语集合。
较佳地,对于扩展网页的每个句子,对该句子进行分词后,还可以进行去除停用词、去除常用词等处理,得到该句子的词语集合。
扩展网页中各句子的词语集合,组成了该扩展网页的词语集合。
本步骤中,对于每个扩展网页,分别计算出该扩展网页与语义结构中的各语义概念簇之间的相似度。
下面介绍计算扩展网页与语义结构中一个语义概念簇之间的相似度的方法。
具体地,由于语义结构中的语义概念簇中包括词语和/或短语,因此可以统计出扩展网页的词语集合中、与语义概念簇中的语义概念相关联的词语的数目。
例如,若扩展网页的一个词语出现在某一语义概念簇的短语中,则将该词语统计在内。
再如,若扩展网页的一个词语出现在某一语义概念簇中,即该语义概念簇中包括该词语,则将该词语统计在内。
根据统计出的与语义概念相关联的词语的数目,与该语义概念簇中的语义概念的数目,确定出协调因子。较佳地,将统计出的与语义概念相关联的词语的数目,除以该语义概念簇中的语义概念的数目,得到协调因子。
统计出与语义概念相关联的词语在扩展网页中出现的频率。较佳地,将与语义概念相关联的词语在扩展网页中出现的次数的平方根,作为该词语在扩展网页中出现的频率。
计算出扩展网页中的与语义概念相关联的词语的逆文档频率的平方值。
计算出扩展网页中的与语义概念相关联的词语的TF-IDF值,作为该词语的权重。
根据扩展网页中所有与语义概念相关联的词语的数目,确定出该扩展网页长度的归一化值。较佳地,将扩展网页中所有与语义概念相关联的词语的数目的平方根的倒数,作为该扩展网页长度的归一化值。
根据本步骤中上述确定出的协调因子、与语义概念相关联的词语在扩展网页中出现的频率、与语义概念相关联的词语的逆文档频率的平方值、与语义概念相关联的词语在语义结构中的权重、以及扩展网页长度的归一化值,计算出扩展网页与语义结构中该语义概念簇之间的相似度。
下面具体介绍计算扩展网页的词语集合与语义结构中一个语义概念簇之间的相似度的方法的实例。
扩展网页i、ii、iii分别记为{A,C,D,A,A,G}、{B,B,K}、{E,C,C,B};A、C、D、G、B、K、E分别表示词语A、C、D、G、B、K、E;语义概念簇q记为{A,B,C}。根据如下公式(2)计算扩展网页i与语义概念簇q的相关度score(q,d):
公式(2)中q表示语义概念簇,即{A,B,C};d表示扩展网页i、ii或iii;t表示与语义概念相关联的词语,例如上述词语A、C、D或G。
公式(2)中coord(q,d)为协调因子,其值等于扩展网页i中、与q中语义概念相关联的词语的个数除以q中的语义概念总数;对于网页i,coord(q,d)=2/3。
tf(t in d)表示语义概念t在扩展网页d中出现的频率,公式(2)中以t出现次数的平方根进行计算,网页i中,对于词语A,对于词语B,tf(B in i)=0,对于词语C,tf(t in d)=1。
idf(t)2表示逆文档频率idf(t)的平方值,numDocs 为同时进行相关度计算的扩展网页的总数,docFreq表示出现词语t的扩展网页的个数。本 例中,
getBoost(t)表示词语t在语义结构中的权重,具体可以是词语t的tf(t)*idf(t)值。
norm(d)表示扩展网页d长度的归一化值,其值等于其中length(d) 表示扩展网页d的与语义概念相关联的词语的总数,对于扩展网页i,
综上,扩展网页i与语义概念簇q的相关度为
根据分别计算出的扩展网页与各语义概念簇之间的相似度,确定出该扩展网页与语义结构之间的相似度。
例如,根据上述公式(2)计算得到扩展网页与每个语义概念簇之间的相关度;根据相关度的大小,对计算得到的各相关度进行排序,取排序结果的中位数的相关度,作为该扩展网页与语义结构的相关度。
S106:根据相似度不低于第一相似度阈值的扩展网页,更新种子网页。
具体地,对于上述确定出的各扩展网页的相似度,将各待推荐网页的相似度分别与预设的第一相似度阈值进行比较;根据比较结果,确定出不低于第一相似度阈值的相似度,进而确定出相似度不低于第一相似度阈值的扩展网页。
将确定出的相似度不低于第一相似度阈值的扩展网页,作为新增的种子网页,与之前获取的种子网页合并,得到更新的种子网页。
S107:周期性地根据更新的种子网页进化语义结构并更新扩展网页、以及根据进化的语义结构更新种子网页,直到达到预设的网页获取终止条件。
具体地,将上述步骤S103中创建的语义结构作为初始周期进化的语义结构,将上述步骤S104中获取的扩展网页作为初始周期更新的扩展网页,将上述步骤S106中更新的种子网页作为初始周期更新的种子网页。
周期性地根据更新的种子网页进化语义结构并更新扩展网页、以及根据进化的语义结构更新种子网页,直到达到预设的网页获取终止条件。
对于周期性中的一个周期,该周期内根据更新的种子网页进化语义结构并更新扩展网页、以及根据进化的语义结构更新种子网页,包括:
对于上一个周期更新的每个种子网页,根据该种子网页中词语之间的出现关联度,确定出该种子网页的语义概念后添加到上一个周期进化的语义结构中,得到本周期进化的语义结构。
获取上一个周期更新的各种子网页所链接的多个网页,作为本周期更新的多个扩展网页。
确定出本周期更新的每个扩展网页与所述本周期进化的语义结构之间的相似度。
根据相似度不低于第一相似度阈值的本周期更新的扩展网页,更新上一个周期更新的种子网页,得到本周期更新的种子网页。
之后判断是否达到预设的网页获取终止条件;若否,则继续下一个周期的语义结构进化、扩展网页更新、以及种子网页更新;若是,则停止语义结构进化、扩展网页更新、以及种子网页更新。
较佳地,当各扩展网页与语义结构之间的相似度的累加值达到进化阈值时,周期性地根据更新的种子网页进化语义结构并更新扩展网页、以及根据进化的语义结构更新种子网页。
S108:对最后一个周期更新的各种子网页进行排序和推荐。
具体地,对于上述步骤S107中周期性更新后的种子网页,在本步骤中对各种子网页的相似度进行排序,例如将各相似度从大到小进行排序。
将排序后的不低于第一相似度阈值的各相似度分别对应的种子网页进行推荐。例如,服务器将将排序后的不低于第一相似度阈值的各相似度分别对应的种子网页,推送到终端,由终端将推送的种子网页向用户进行展示。
根据上述网页搜集推荐方法,本发明实施例还提供了一种网页搜集推荐装置,该装置的内部结构的框架示意图如图3所示,包括:种子网页获取模块301、语义结构创建模块302、扩展网页处理模块303、种子网页更新模块304、语义结构进化模块305和网页推荐模块306。
其中,种子网页获取模块301用于获取与用户输入的关键词相关的多个网页作为多个种子网页。
语义结构创建模块302用于根据种子网页中词语之间的出现关联度,确定出该种子网页的语义概念;对各种子网页的语义概念进行聚类,得到语义结构。
具体地,语义结构创建模块302确定出每个种子网页的每个句子的词语集合;以及对于该种子网页中每个句子的词语集合,计算出该词语集合中一对相邻词语的出现关联度,并判断该出现关联度是否低于预设的出现关联度阈值;若否,则将该对相邻词语合并为短语后,继续计算该短语与后续相邻词语的出现关联度,并继续判断该短语与后续相邻词语的出现关联度是否低于出现关联度阈值,直到遍历该词语集合的所有词语,得到该句子的语义概念;将该种子网页中各句子的语义概念,组成该种子网页的语义概念。
扩展网页处理模块303用于获取各种子网页所链接的多个网页作为多个扩展网页;确定出每个扩展网页与语义结构之间的相似度;以及周期性地根据更新的种子网页更新扩展网页,直到达到预设的网页获取终止条件。
较佳地,扩展网页处理模块303提取出各种子网页中的链接文本;确定出每个链接文本的词语集合;对于每个链接文本,根据该链接文本的词语集合确定出该链接文本与语义结构之间的相似度;获取相似度不低于第二相似度阈值的链接文本所链接的网页作为多个扩展网页。
扩展网页处理模块303对于每个扩展网页,分别计算出该扩展网页与语义结构中的各语义概念簇之间的相似度;根据计算出的各相似度,确定出该扩展网页与语义结构之间的相似度。
种子网页更新模块304用于根据相似度不低于第一相似度阈值的扩展网页,更新种子网页;以及周期性地根据进化的语义结构更新种子网页。
语义结构进化模块305用于周期性地根据更新的种子网页进化语义结构。
网页推荐模块306用于对最后一个周期更新的各种子网页进行排序和推荐。
较佳地,语义结构进化模块305具体用于对于周期性中的一个周期,该周期内根据更新的种子网页进化语义结构,包括:对于上一个周期更新的每个种子网页,根据该种子网页中词语之间的出现关联度,确定出该种子网页的语义概念后添加到上一个周期进化的语义结构中,得到本周期进化的语义结构。
以及,扩展网页处理模块303具体用于对于周期性中的一个周期,该周期内根据更新的种子网页更新扩展网页,包括:获取上一个周期更新的各种子网页所链接的多个网页,作为本周期更新的多个扩展网页。
以及,种子网页更新模块304对于周期性中的一个周期,该周期内根据进化的语义结构更新种子网页,包括:确定出本周期更新的每个扩展网页与本周期进化的语义结构之间的相似度;根据相似度不低于第一相似度阈值的本周期更新的扩展网页,更新上一个周期更新的种子网页,得到本周期更新的种子网页。
上述种子网页获取模块301、语义结构创建模块302、扩展网页处理模块303、种子网页更新模块304、语义结构进化模块305和网页推荐模块306功能的实现方法,可以参考如上述图1所示的流程步骤的具体内容,此处不再赘述。
本发明实施例中,获取与用户输入的关键词相关的多个网页作为多个种子网页;根据种子网页中词语之间的出现关联度,确定出该种子网页的语义概念;对各种子网页的语义概念进行聚类,得到语义结构;获取各种子网页所链接的多个网页作为多个扩展网页;确定出每个扩展网页与语义结构之间的相似度;根据相似度不低于第一相似度阈值的扩展网页,更新种子网页;周期性地根据更新的种子网页进化语义结构并更新扩展网页、以及根据进化的语义结构更新种子网页,直到达到预设的网页获取终止条件;对最后一个周期更新的各种子网页进行排序和推荐;可以使得推荐的网页在语义上与用户输入的关键词具有较高的相关性,提升网页推荐的准确性和效率;并且语义结构实际上是包括了与关键词的语义相关的词语和/或短语,例如关键词的同义词或近义词,因此,利用本发明实施例可以搜集到不包含关键词但是包含其同义词或近义词的网页进行推荐,从而大大降低了遗漏网页的几率,便于用户查找到需要的网页,提升了用户的体验。
而且,本发明实施例中,周期性地根据更新的种子网页进化语义结构并更新扩展网页、以及根据进化的语义结构更新种子网页。进而本发明实施例,可以逐步进化的语义结构,并逐步根据进化的语义结构更新种子网页;进一步提升最后一个周期更新的各种子网页与进化的语义结构之间的相似度,从而提升网页搜集推荐的准确性和效率,进一步降低网页遗漏的几率,便于用户查找到需要的网页,提升了用户的体验。
本技术领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随即存储器)、EPROM(Erasable ProgrammableRead-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically ErasableProgrammable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种网页搜集推荐方法,其特征在于,包括:
获取与用户输入的关键词相关的多个网页作为多个种子网页;
根据种子网页中词语之间的出现关联度,确定出该种子网页的语义概念;对各种子网页的语义概念进行聚类,得到语义结构;
获取各种子网页所链接的多个网页作为多个扩展网页;
确定出每个扩展网页与所述语义结构之间的相似度;
根据相似度不低于第一相似度阈值的扩展网页,更新种子网页;
周期性地根据更新的种子网页进化语义结构并更新扩展网页、以及根据进化的语义结构更新种子网页,直到达到预设的网页获取终止条件;
对最后一个周期更新的各种子网页进行排序和推荐;
所述周期性地根据更新的种子网页进化语义结构并更新扩展网页、以及根据进化的语义结构更新种子网页,具体包括:
对于所述周期性中的一个周期,该周期内根据更新的种子网页进化语义结构并更新扩展网页、以及根据进化的语义结构更新种子网页,包括:
对于上一个周期更新的每个种子网页,根据该种子网页中词语之间的出现关联度,确定出该种子网页的语义概念后添加到上一个周期进化的语义结构中,得到本周期进化的语义结构;
获取上一个周期更新的各种子网页所链接的多个网页,作为本周期更新的多个扩展网页;
确定出本周期更新的每个扩展网页与所述本周期进化的语义结构之间的相似度;
根据相似度不低于第一相似度阈值的本周期更新的扩展网页,更新上一个周期更新的种子网页,得到本周期更新的种子网页。
2.根据权利要求1所述的方法,其特征在于,所述根据种子网页中词语之间的出现关联度,确定出该种子网页的语义概念,包括:
确定出每个种子网页的每个句子的词语集合;以及
对于该种子网页中每个句子的词语集合,计算出该词语集合中一对相邻词语的出现关联度,并判断该出现关联度是否低于预设的出现关联度阈值;若否,则将该对相邻词语合并为短语后,继续计算该短语与后续相邻词语的出现关联度,并继续判断该短语与后续相邻词语的出现关联度是否低于所述出现关联度阈值,直到遍历该词语集合的所有词语,得到该句子的语义概念;
将该种子网页中各句子的语义概念,组成该种子网页的语义概念。
3.根据权利要求1所述的方法,其特征在于,所述获取各种子网页所链接的多个网页之前,还包括:
提取出各种子网页中的链接文本;
确定出每个链接文本的词语集合;
对于每个链接文本,根据该链接文本的词语集合,确定出该链接文本与所述语义结构之间的相似度;以及
所述获取各种子网页所链接的多个网页,具体包括:
获取相似度不低于第二相似度阈值的链接文本所链接的网页。
4.根据权利要求1所述的方法,其特征在于,所述确定出每个扩展网页与所述语义结构之间的相似度,包括:
对于每个扩展网页,分别计算出该扩展网页与所述语义结构中的各语义概念簇之间的相似度;
根据计算出的各相似度,确定出该扩展网页与所述语义结构之间的相似度。
5.一种网页搜集推荐装置,其特征在于,包括:
种子网页获取模块,用于获取与用户输入的关键词相关的多个网页作为多个种子网页;
语义结构创建模块,用于根据种子网页中词语之间的出现关联度,确定出该种子网页的语义概念;对各种子网页的语义概念进行聚类,得到语义结构;
扩展网页处理模块,用于获取各种子网页所链接的多个网页作为多个扩展网页;确定出每个扩展网页与所述语义结构之间的相似度;以及周期性地根据更新的种子网页更新扩展网页,直到达到预设的网页获取终止条件;
种子网页更新模块,用于根据相似度不低于第一相似度阈值的扩展网页,更新种子网页;以及周期性地根据进化的语义结构更新种子网页;
语义结构进化模块,用于周期性地根据更新的种子网页进化语义结构;
网页推荐模块,用于对最后一个周期更新的各种子网页进行排序和推荐;
所述语义结构进化模块具体用于对于所述周期性中的一个周期,该周期内根据更新的种子网页进化语义结构,包括:对于上一个周期更新的每个种子网页,根据该种子网页中词语之间的出现关联度,确定出该种子网页的语义概念后添加到上一个周期进化的语义结构中,得到本周期进化的语义结构;以及
所述扩展网页处理模块具体用于对于所述周期性中的一个周期,该周期内根据更新的种子网页更新扩展网页,包括:获取上一个周期更新的各种子网页所链接的多个网页,作为本周期更新的多个扩展网页;以及
所述种子网页更新模块具体用于对于所述周期性中的一个周期,该周期内根据进化的语义结构更新种子网页,包括:确定出本周期更新的每个扩展网页与所述本周期进化的语义结构之间的相似度;根据相似度不低于第一相似度阈值的本周期更新的扩展网页,更新上一个周期更新的种子网页,得到本周期更新的种子网页。
6.根据权利要求5所述的装置,其特征在于,
所述语义结构创建模块具体用于确定出每个种子网页的每个句子的词语集合;以及对于该种子网页中每个句子的词语集合,计算出该词语集合中一对相邻词语的出现关联度,并判断该出现关联度是否低于预设的出现关联度阈值;若否,则将该对相邻词语合并为短语后,继续计算该短语与后续相邻词语的出现关联度,并继续判断该短语与后续相邻词语的出现关联度是否低于所述出现关联度阈值,直到遍历该词语集合的所有词语,得到该句子的语义概念;将该种子网页中各句子的语义概念,组成该种子网页的语义概念。
7.根据权利要求5所述的装置,其特征在于,
所述扩展网页处理模块具体用于提取出各种子网页中的链接文本;确定出每个链接文本的词语集合;对于每个链接文本,根据该链接文本的词语集合确定出该链接文本与所述语义结构之间的相似度;获取相似度不低于第二相似度阈值的链接文本所链接的网页作为所述多个扩展网页。
8.根据权利要求5所述的装置,其特征在于,
所述扩展网页处理模块具体用于对于每个扩展网页,分别计算出该扩展网页与所述语义结构中的各语义概念簇之间的相似度;根据计算出的各相似度,确定出该扩展网页与所述语义结构之间的相似度。
CN201610102827.2A 2016-02-24 2016-02-24 网页搜集推荐方法和装置 Active CN105740460B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610102827.2A CN105740460B (zh) 2016-02-24 2016-02-24 网页搜集推荐方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610102827.2A CN105740460B (zh) 2016-02-24 2016-02-24 网页搜集推荐方法和装置

Publications (2)

Publication Number Publication Date
CN105740460A CN105740460A (zh) 2016-07-06
CN105740460B true CN105740460B (zh) 2019-07-19

Family

ID=56248369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610102827.2A Active CN105740460B (zh) 2016-02-24 2016-02-24 网页搜集推荐方法和装置

Country Status (1)

Country Link
CN (1) CN105740460B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109672706B (zh) * 2017-10-16 2022-06-14 百度在线网络技术(北京)有限公司 一种信息推荐方法、装置、服务器及存储介质
CN109192258B (zh) * 2018-08-14 2023-06-20 深圳平安医疗健康科技服务有限公司 医疗数据转化方法、装置、计算机设备和存储介质
CN110968770B (zh) * 2018-09-29 2023-09-05 北京国双科技有限公司 一种终止爬虫工具爬取的方法及装置
CN109597928B (zh) * 2018-12-05 2022-12-16 云南电网有限责任公司信息中心 支持用户策略配置的基于Web网络的非结构化文本获取方法
CN109714341A (zh) * 2018-12-28 2019-05-03 厦门服云信息科技有限公司 一种Web恶意攻击识别方法、终端设备及存储介质
CN111460104B (zh) * 2020-04-01 2023-09-22 神思电子技术股份有限公司 行业自适应的智能搜索方法
CN111737451B (zh) * 2020-05-14 2024-03-19 上海交通大学 基于超网络模型的专家推荐方法
CN112612967B (zh) * 2020-09-11 2023-07-18 辽宁师范大学 基于链接聚类和约简的协同过滤推荐方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751438A (zh) * 2008-12-17 2010-06-23 中国科学院自动化研究所 自适应语义驱动的主题网页过滤系统
CN102831131A (zh) * 2011-06-16 2012-12-19 富士通株式会社 构建标注网页语料库的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6182066B1 (en) * 1997-11-26 2001-01-30 International Business Machines Corp. Category processing of query topics and electronic document content topics

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751438A (zh) * 2008-12-17 2010-06-23 中国科学院自动化研究所 自适应语义驱动的主题网页过滤系统
CN102831131A (zh) * 2011-06-16 2012-12-19 富士通株式会社 构建标注网页语料库的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
主题爬虫搜索策略及关键技术研究;徐宁;《万方数据知识服务平台学位论文》;20151229;第12-19、23-33页

Also Published As

Publication number Publication date
CN105740460A (zh) 2016-07-06

Similar Documents

Publication Publication Date Title
CN105740460B (zh) 网页搜集推荐方法和装置
CN110781317B (zh) 事件图谱的构建方法、装置及电子设备
CN105488196B (zh) 一种基于互联语料的热门话题自动挖掘系统
US8626768B2 (en) Automated discovery aggregation and organization of subject area discussions
CN103631794B (zh) 一种用于对搜索结果进行排序的方法、装置与设备
US8255414B2 (en) Search assist powered by session analysis
CN101694658A (zh) 基于新闻去重的网页爬虫的构建方法
US20090198676A1 (en) Indexing Documents for Information Retrieval
CN107463591A (zh) 响应于搜索查询对待与内容匹配的图像动态排序的方法和系统
CN102119383A (zh) 便利内容检索服务系统内本体和语言模型生成的信息获取和汇聚方法及子系统
CN107766399A (zh) 用于使图像与内容项目匹配的方法和系统及机器可读介质
CA2500035A1 (en) User intent discovery
Yang OntoCrawler: A focused crawler with ontology-supported website models for information agents
JP2006107433A (ja) 検索結果のランク付けへのアンカーテキストの組込みシステムおよび方法
CN103310026A (zh) 一种基于搜索引擎的轻量级通用网页主题爬虫方法
CN102760151A (zh) 开源软件获取与搜索系统的实现方法
CN105574162B (zh) 关键字自动超级链接的方法
CN106021418A (zh) 新闻事件的聚类方法及装置
CN107463592A (zh) 用于将内容项目与图像匹配的方法、设备和数据处理系统
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
CN104281619A (zh) 搜索结果排序系统及方法
CN112989824A (zh) 信息推送方法及装置、电子设备及存储介质
CN103279492A (zh) 一种抓取网页的方法和装置
KR20120003834A (ko) 인터넷을 활용한 개체 검색과 이를 위한 하이브리드 기반의 의견분석 시스템 및 그 방법
CN104156458B (zh) 一种信息的提取方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant