CN107657005B - 一种主题网页的检索方法及装置 - Google Patents

一种主题网页的检索方法及装置 Download PDF

Info

Publication number
CN107657005B
CN107657005B CN201710864482.9A CN201710864482A CN107657005B CN 107657005 B CN107657005 B CN 107657005B CN 201710864482 A CN201710864482 A CN 201710864482A CN 107657005 B CN107657005 B CN 107657005B
Authority
CN
China
Prior art keywords
paragraph
proportion
subject
address
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710864482.9A
Other languages
English (en)
Other versions
CN107657005A (zh
Inventor
徐同年
刘瑞慧
于晓晨
朱斌
王岗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN201710864482.9A priority Critical patent/CN107657005B/zh
Publication of CN107657005A publication Critical patent/CN107657005A/zh
Application granted granted Critical
Publication of CN107657005B publication Critical patent/CN107657005B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种主题网页的检索方法及装置,该方法包括:确定检索主题,并构建与检索主题相对应的主题词库;获取至少一个检索网页,并确定每一个检索网页对应的页面内容和URL地址;根据检索网页对应的页面内容的字数,将页面内容划分为至少两个段落;根据主题词库从至少两个段落中确定出至少一个有效段落,并确定出有效段落的段落占比;确定段落占比是否大于预设的段落占比阈值,如果是,从URL地址中确定出至少一个主题地址词组,并确定主题地址词组对应的词组占比;根据确定出的词组占比和段落占比,确定检索网页对应的主题总分值;确定主题总分值是否大于预设的总分阈值,如果是,确定检索网页为主题网页。本方案能提高检索主题网页的准确性。

Description

一种主题网页的检索方法及装置
技术领域
本发明涉及计算机技术领域,特别涉及一种主题网页的检索方法及装置。
背景技术
随着互联网技术的发展,各式各样的数据通过不同形式的网页进行呈现,如何快速准确地从众多网页中检索出特定主题的网页,对提高处理特定主题相关数据的效率具有重要作用。
目前,对特定主题的网页进行检索时,主要根据网页中包括的页面内容进行检索,具体地,该方法首先通过接收检索用户输入的特定主题的关键词,然后确定出页面内容中携带有该关键词的网页,最后将这些网页进行输出。
在此过程中,仅通过确定页面内容中是否携带有对应的关键词来确定网页是否符合检索要求,例如,当需要检索政务行业的网页时,输入关键词“政务”,通过上述方法不仅可检索出政务行业的网页,也可检索出页面内容中携带有关键词“政务”的非政务行业的网页,例如新闻网页等。由此可见,该方法在对特定主题的网页进行检索时,检索准确性较低。
发明内容
本发明实施例提供了一种主题网页的检索方法及装置,能提高检索主题网页的准确性。
第一方面,本发明实施例提供了一种主题网页的检索方法,包括:
确定检索主题,并构建与所述检索主题相对应的主题词库;
获取至少一个检索网页,并确定每一个所述检索网页对应的页面内容和统一资源定位符URL地址;
针对每一个所述检索网页,均执行:
根据所述检索网页对应的页面内容的字数,将所述页面内容划分为至少两个段落;其中,每两个所述段落对应的字数之差不大于预设的字数差阈值;
根据所述主题词库,从划分出的所述至少两个段落中确定出至少一个有效段落,并确定出所述有效段落的段落占比;
确定所述段落占比是否大于预设的段落占比阈值,如果是,从所述检索网页对应的URL地址中确定出至少一个主题地址词组,并确定所述主题地址词组对应的词组占比;
根据确定出的所述词组占比和所述段落占比,确定所述检索网页对应的主题总分值;
确定所述主题总分值是否大于预设的总分阈值,如果是,确定所述检索网页为主题网页。
优选地,
所述主题词库包括:与所述检索主题相对应的至少一个关键词;
所述根据所述主题词库,从划分出的所述至少两个段落中确定出至少一个有效段落,包括:
针对划分出的每一个所述段落,均执行:
根据所述主题词库,确定所述段落中是否存在至少一个与所述关键词相对应的主题词;
如果存在,确定所述主题词的个数,以及每个所述主题词对应的字数;
根据确定出的所述主题词的个数、每个所述主题词对应的字数,以及所述段落对应的总字数,利用下述第一计算公式,计算所述段落中的主题词对应的主题字数占比;
Figure GDA0002232987160000021
其中,Pcontent表征所述主题字数占比,pi表征第i个所述主题词的字数,k表征所述段落中的主题词的个数,ncontent表征所述段落对应的总字数;
确定计算出的所述主题字数占比是否大于预设的字数占比阈值,如果是,将所述段落确定为所述有效段落。
优选地,
所述确定出所述有效段落的段落占比,包括:
根据确定出的所述有效段落的个数,以及划分出的所述段落的总个数,利用下述第二计算公式,计算所述有效段落的段落占比;
Pparagraph=nremain/m
其中,Pparagraph表征所述有效段落的段落占比,nremain表征所述有效段落的个数,m表征所述段落的总个数。
优选地,
所述主题词库包括:与所述检索主题相对应的至少一个地址字段;
所述从所述检索网页对应的URL地址中确定出至少一个主题地址词组,并确定所述主题地址词组对应的词组占比,包括:
从所述URL地址中解析出至少一个地址词组;
根据所述主题词库,确定解析出的所述地址词组中是否存在至少一个与所述地址字段相对应的地址词组,如果存在,则将确定出的所述地址词组作为所述主题地址词组;
根据所述主题地址词组的数量以及所述URL地址中包括的所述地址词组的总数量,利用下述第三计算公式,计算所述主题地址词组对应的词组占比;
Purl=Nurl/Murl
其中,Purl表征所述主题地址词组对应的词组占比,Nurl表征所述主题地址词组的数量,Murl表征所述地址词组的总数量。
优选地,
所述根据确定出的所述词组占比和所述段落占比,确定所述检索网页对应的主题总分值,包括:
确定所述词组占比以及所述段落占比分别对应的权重值;
根据确定出的所述权重值、所述词组占比以及所述段落占比,利用下述第四计算公式,计算所述主题总分值;
Q=α·Purl+β·Pparagraph
其中,Q表征所述主题总分值,Purl表征所述词组占比,α表征所述词组占比对应的权重值,Pparagraph表征所述段落占比,β表征所述段落占比对应的权重值。
第二方面,本发明实施例提供了一种主题网页的检索装置,包括:构建单元、获取单元、段落占比确定单元、主题网页确定单元;其中,
所述构建单元,用于确定检索主题,并构建与所述检索主题相对应的主题词库;
所述获取单元,用于获取至少一个检索网页,并确定每一个所述检索网页对应的页面内容和统一资源定位符URL地址;
所述段落占比确定单元,用于针对所述获取单元获取到的每一个所述检索网页,均执行:根据所述检索网页对应的页面内容的字数,将所述页面内容划分为至少两个段落;其中,每两个所述段落对应的字数之差不大于预设的字数差阈值;并根据所述构建单元构建的主题词库,从划分出的所述至少两个段落中确定出至少一个有效段落,并确定出所述有效段落的段落占比;
所述主题网页确定单元,用于确定所述段落占比确定单元确定出的段落占比是否大于预设的段落占比阈值,如果是,从所述检索网页对应的URL 地址中确定出至少一个主题地址词组,并确定所述主题地址词组对应的词组占比;根据确定出的所述词组占比和所述段落占比,确定所述检索网页对应的主题总分值;确定所述主题总分值是否大于预设的总分阈值,如果是,确定所述检索网页为主题网页。
优选地,
所述主题词库包括:与所述检索主题相对应的至少一个关键词;
所述段落占比确定单元,包括:主题词确定子单元、主题字数占比计算子单元和有效段落确定子单元;其中,
所述主题词确定子单元,用于针对划分出的每一个所述段落,均执行:根据所述主题词库,确定所述段落中是否存在至少一个与所述关键词相对应的主题词,如果存在,确定所述主题词的个数,以及每个所述主题词对应的字数;
所述主题字数占比计算子单元,用于根据确定出的所述主题词的个数,每个所述主题词对应的字数,以及所述段落对应的总字数,利用下述第一计算公式,计算所述段落中的主题词对应的主题字数占比;
Figure GDA0002232987160000051
其中,Pcontent表征所述主题字数占比,pi表征第i个所述主题词的字数, k表征所述段落中的主题词的个数,ncontent表征所述段落对应的总字数;
所述有效段落确定子单元,用于确定计算出的所述主题字数占比是否大于预设的字数占比阈值,如果是,将所述段落确定为所述有效段落。
优选地,
所述段落占比确定单元,用于根据确定出的所述有效段落的个数,以及划分出的所述段落的总个数,利用下述第二计算公式,计算所述有效段落的段落占比;
Fparagraph=nremain/m
其中,Pparagraph表征所述有效段落的段落占比,nremain表征所述有效段落的个数,m表征所述段落的总个数。
优选地,
所述主题词库包括:与所述检索主题相对应的至少一个地址字段;
所述主题网页确定单元包括:主题地址词组确定子单元和词组占比计算子单元;其中,
所述主题 地址词组确定子单元,用于从所述URL地址中解析出至少一个地址词组,根据所述主题词库,确定解析出的所述地址词组中是否存在至少一个与所述地址字段相对应的地址词组,如果存在,则将确定出的所述地址词组作为所述主题地址词组;
所述词组占比计算子单元,用于根据所述主题地址词组的数量以及所述 URL地址中包括的所述地址词组的总数量,利用下述第三计算公式,计算所述主题地址词组对应的词组占比;
Purl=Nurl/Murl
其中,Purl表征所述主题地址词组对应的词组占比,Nurl表征所述主题地址词组的数量,Murl表征所述地址词组的总数量。
优选地,
所述主题网页确定单元,用于确定所述词组占比以及所述段落占比分别对应的权重值,根据确定出的所述权重值、所述词组占比以及所述段落占比,利用下述第四计算公式,计算所述主题总分值;
Q=α·Purl+β·Pparagraph
其中,Q表征所述主题总分值,Purl表征所述词组占比,α表征所述词组占比对应的权重值,Pparagraph表征所述段落占比,β表征所述段落占比对应的权重值。
本发明实施例提供了一种主题网页的检索方法及装置,根据确定检索网页对应的页面内容中与检索主题相对应的有效段落和有效段落的段落占比,并确定检索网页对应的统一资源定位符(Uniform Resource Locator,URL) 中包括的主题地址词组和主题地址词组对应的词组占比,根据确定出的与网页内容相关的段落占比和与URL地址相关的词组占比,确定该检索网页对应的主题总分值,当主题总分值大于预设的总分阈值时,将该检索网页确定为主题网页。由于对页面内容和URL地址进行了双重检索,并通过相应的段落占比和词组占比进行综合判断,而不仅仅是判断页面内容中是否携带有关键词,因此检索出的主题网页的准确性更高,从而提高了检索主题网页的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种主题网页的检索方法的流程图;
图2是本发明另一个实施例提供的一种主题网页的检索方法的流程图;
图3是本发明一个实施例提供的一种主题网页的检索装置的结构示意图;
图4是本发明另一个实施例提供的一种主题网页的检索装置的结构示意图;
图5是本发明又一个实施例提供的一种主题网页的检索装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种主题网页的检索方法,该方法可以包括以下步骤:
步骤101:确定检索主题,并构建与所述检索主题相对应的主题词库;
步骤102:获取至少一个检索网页,并确定每一个所述检索网页对应的页面内容和统一资源定位符URL地址;
步骤103:针对每一个所述检索网页,均执行:根据所述检索网页对应的页面内容的字数,将所述页面内容划分为至少两个段落;其中,每两个所述段落对应的字数之差不大于预设的字数差阈值;
步骤104:根据所述主题词库,从划分出的所述至少两个段落中确定出至少一个有效段落,并确定出所述有效段落的段落占比;
步骤105:确定所述段落占比是否大于预设的段落占比阈值,如果是,从所述检索网页对应的URL地址中确定出至少一个主题地址词组,并确定所述主题地址词组对应的词组占比;
步骤106:根据确定出的所述词组占比和所述段落占比,确定所述检索网页对应的主题总分值;
步骤107:确定所述主题总分值是否大于预设的总分阈值,如果是,确定所述检索网页为主题网页。
上述实施例中,根据确定检索网页对应的页面内容中与检索主题相对应的有效段落和有效段落的段落占比,并确定检索网页对应的URL地址中包括的主题地址词组和主题地址词组对应的词组占比,根据确定出的与网页内容相关的段落占比和与URL地址相关的词组占比,确定该检索网页对应的主题总分值,当主题总分值大于预设的总分阈值时,将该检索网页确定为主题网页。由于对页面内容和URL地址进行了双重检索,并通过相应的段落占比和词组占比进行综合判断,而不仅仅是判断页面内容中是否携带有关键词,因此检索出的主题网页的准确性更高,从而提高了检索主题网页的准确性。同时,由于检索出的网页中减少了与检索主题无关的网页,这在一定程度上节省了系统资源、网络带宽和时间。
本发明一个实施例中,所述主题词库包括:与所述检索主题相对应的至少一个关键词;
步骤104的具体实施方式,可以包括:
针对划分出的每一个所述段落,均执行:根据所述主题词库,确定所述段落中是否存在至少一个与所述关键词相对应的主题词;
如果存在,确定所述主题词的个数,以及每个所述主题词对应的字数;
根据确定出的所述主题词的个数、每个所述主题词对应的字数,以及所述段落对应的总字数,利用下述第一计算公式,计算所述段落中的主题词对应的主题字数占比;
Figure GDA0002232987160000091
其中,Pcontent表征所述主题字数占比,pi表征第i个所述主题词的字数, k表征所述段落中的主题词的个数,ncontent表征所述段落对应的总字数;
确定计算出的所述主题字数占比是否大于预设的字数占比阈值,如果是,将所述段落确定为所述有效段落。
举例来说,当检索的主题网页为政务行业时,则主题词库中包括的关键词与政务行业相对应,例如,主题词库中包括有城市建设、城市规划和社会保障等关键词。在确定有效段落时,首先确定划分出的段落中是否存在与主题词库中的关键词相同的主题词,如果有,则确定主题词对应的主题字数占比,例如,在段落A中确定出5个主题词,每个主题词的字数分别为2、3、 4、5和6,段落A中总共有50个字,则可利用公式(1)计算出该段落对应的主题字数占比为(2+3+4+5+6)/50=2/5,若预设的字数占比阈值为1/5,则可判断出主题字数占比大于字数占比阈值,可确定出该段落为有效段落,若判断出主题字数占比不大于字数占比阈值,则确定该段落为无效段落,即抛弃此段落。由此,通过对页面内容进行分段,并根据划分出的每个段落中的主题字数的占比,确定出页面内容中包括的有效段落,从而有利于准确确定页面内容与检索主题的相关性,有利于进一步提高检索主题网页的准确性。
本发明一个实施例中,步骤104的具体实施方式,可以包括:
根据确定出的所述有效段落的个数,以及划分出的所述段落的总个数,利用下述第二计算公式,计算所述有效段落的段落占比;
Pparagraph=nremain/m
其中,Pparagraph表征所述有效段落的段落占比,nremain表征所述有效段落的个数,m表征所述段落的总个数。
在这里,确定出有效段落的个数后,可计算出有效段落对应的段落占比,举例来说,若将检索网页的页面内容划分为了10个段落,从中确定出的有效段落的个数为5个,则有效段落的段落占比为1/2。通过确定出段落占比,可从整体上确定页面内容与检索主题的相关性,从而有利于进一步提高检索主题网页的准确性。
本发明一个实施例中,所述主题词库包括:与所述检索主题相对应的至少一个地址字段;
步骤105的具体实施方式,可以包括:
从所述URL地址中解析出至少一个地址词组;
根据所述主题词库,确定解析出的所述地址词组中是否存在至少一个与所述地址字段相对应的地址词组,如果存在,则将确定出的所述地址词组作为所述主题地址词组;
根据所述主题地址词组的数量以及所述URL地址中包括的所述地址词组的总数量,利用下述第三计算公式,计算所述主题地址词组对应的词组占比;
Purl=Nurl/Murl
其中,Purl表征所述主题地址词组对应的词组占比,Nurl表征所述主题地址词组的数量,Murl表征所述地址词组的总数量。
一般来说,创建一个网页时,URL往往不是随便取名字的,例如,“中国裁判文书网(http://wenshu.court.gov.cn/)”的URL地址中,会有wenshu 和court等特定地址词组,因此检索网页对应的URL地址也可作为主题相关性的判断依据。在确定检索网页对应的URL地址中的主题地址词组对应的词组占比时,首先从URL地址中解析出地址词组,以“中国裁判文书网”为例,对“http://wenshu.court.gov.cn/”进行清洗,去掉“http://”、“/”以及“.”等部分,可从中解析出地址词组wenshu、court、gov和cn。预先构建的主题词库中,可收录法院相关网站站点的地址字段,例如,主题词库中包括wenshu、 court、shixin和splcgk等地址字段,在从检索网页对应的URL地址中确定出地址词组后,根据主题词库中的地址字段,可确定出URL地址中包括的主题地址词组为wenshu和court。然后,利用计算公式(3),可确定出主题地址词组对应的词组占比为2/4=1/2。由此,根据主题词库,准确确定出URL地址中包括的主题地址词组与地址词组之间的比例,即词组占比,有利于准确确定出检索网页对应的URL地址与检索主题的相关性,从而有利于进一步提高检索主题网页的准确性。
本发明一个实施例中,步骤106的具体实施方式,可以包括:
确定所述词组占比以及所述段落占比分别对应的权重值;
根据确定出的所述权重值、所述词组占比以及所述段落占比,利用下述第四计算公式,计算所述主题总分值;
Q=α·Purl+β·Pparagraph
其中,Q表征所述主题总分值,Purl表征所述词组占比,α表征所述词组占比对应的权重值,Pparagraph表征所述段落占比,β表征所述段落占比对应的权重值。
在本实施例中,可预先构建页面内容相关性判断模型和URL相关性判断模型,然后利用页面内容相关性判断模型确定出段落占比,利用URL相关性判断模型确定出词组占比。然后可结合页面内容相关性判断模型和实际情况,确定出段落占比对应的权重,并结合URL相关性判断模型确定词组占比对应的权重,利用计算公式(4),可计算出该检索网页对应的主题总分值。根据主题总分值进行判断的方式能更准确地确定出检索网页与检索主题的相关性,从而有利于进一步提高检索主题网页的准确性。
如图2所示,本发明实施例提供了一种主题网页的检索方法,该方法可以包括以下步骤:
步骤201:确定检索主题,并构建与所述检索主题相对应的主题词库;其中,所述主题词库中包括:与所述检索主题相对应的至少一个关键词,以及与所述检索主题想对应的至少一个地址字段。
确定的检索主题为政务行业时,则主题词库中包括的关键词与政务行业相对应,例如,主题词库中包括有城市建设、城市规划和社会保障等关键词,主题词库中包括的地址字段为政务行业相关网站对应的URL地址中的特征地址字段,例如,为法院相关网站站点的地址字段,包括有wenshu、court、 shixin和splcgk等。
步骤202:获取至少一个检索网页,并确定每一个所述检索网页对应的页面内容和URL地址。
获取各个检索网页时,可通过Heritrix进行爬取,经过解析器解析页面内容,如发现新的URL,则将新的URL插入到URL队列中。一般来说,创建一个网页时,URL往往不是随便取名字的,例如,“中国裁判文书网 (http://wenshu.court.gov.cn/)”的URL地址中,会有wenshu和court等特定地址词组,因此检索网页对应的URL地址与页面内容均可作为主题相关性的判断依据。
步骤203:针对每一个所述检索网页,均执行:根据所述检索网页对应的页面内容的字数,将所述页面内容划分为至少两个段落;其中,每两个所述段落对应的字数之差不大于预设的字数差阈值。
在这里,首先对网页内容进行分段处理,分段时尽量保证每个段落的字数相等,便于准确确定各个段落中主题词对应的主题字数占比。
步骤204:针对划分出的每一个所述段落,均执行:根据所述主题词库,确定所述段落中是否存在至少一个与所述关键词相对应的主题词,如果存在,确定所述主题词的个数,以及每个所述主题词对应的字数。
步骤205:根据确定出的所述主题词的个数、每个所述主题词对应的字数,以及所述段落对应的总字数,计算所述段落中的主题词对应的主题字数占比。
在这里,首先确定划分出的段落中是否存在与主题词库中的关键词相同的主题词,如果有,则确定主题词对应的主题字数占比,例如,在段落A中确定出5个主题词,每个主题词的字数分别为2、3、4、5和6,段落A中总共有50个字,则可利用公式
Figure GDA0002232987160000121
计算该段落对应的主题字数占比,其中,Pcontent表征所述主题字数占比,pi表征第i个所述主题词的字数,k表征所述段落中的主题词的个数,ncontent表征所述段落对应的总字数,在这里,该段落对应的主题字数占比为(2+3+4+5+6)/50=2/5。
步骤206:判断计算出的所述主题字数占比是否大于预设的字数占比阈值,如果是,则执行步骤207,否则执行步骤208。
步骤207:将所述段落确定为有效段落。
步骤208:将所述段落确定为无效段落,并抛弃所述无效段落。
步骤209:根据确定出的所述有效段落的个数,以及划分出的所述段落的总个数,计算所述有效段落的段落占比。
在这里,确定出有效段落的个数后,可通过公式Pparagraph=nremain/m计算出有效段落对应的段落占比,其中,Pparagraph表征所述有效段落的段落占比,nremain表征所述有效段落的个数,m表征所述段落的总个数。举例来说,若将检索网页的页面内容划分为了10个段落,从中确定出的有效段落的个数为5个,则有效段落的段落占比为1/2。
步骤210:判断所述段落占比是否大于预设的段落占比阈值,如果是,执行步骤211,否则执行步骤216。
步骤211:从所述URL地址中解析出至少一个地址词组,根据所述主题词库,确定解析出的所述地址词组中是否存在至少一个与所述地址字段相对应的地址词组,如果存在,则将确定出的所述地址词组作为所述主题地址词组。
从URL地址中解析出地址词组时,以“中国裁判文书网”为例,对“http:// wenshu.court.gov.cn/”进行清洗,去掉http://、“/”以及“.”等部分,可从中解析出地址词组wenshu、court、gov和cn。根据主题词库中的地址字段,可确定出URL地址中包括的主题地址词组为wenshu和court。
步骤212:根据所述主题地址词组的数量以及所述URL地址中包括的所述地址词组的总数量,计算所述主题地址词组对应的词组占比。
利用计算公式Purl=Nurl/Murl可确定出主题地址词组对应的词组占比,其中,Purl表征所述主题地址词组对应的词组占比,Nurl表征所述主题地址词组的数量,Murl表征所述地址词组的总数量。在这里,主题地址词组对应的词组占比为2/4=1/2。
步骤213:确定所述词组占比以及所述段落占比分别对应的权重值,并根据确定出的所述权重值、所述词组占比以及所述段落占比,计算主题总分值。
在本实施例中,可预先构建页面内容相关性判断模型和URL相关性判断模型,然后利用页面内容相关性判断模型执行上述步骤203至步骤209,确定出段落占比,利用URL相关性判断模型执行步骤211和步骤212,确定出词组占比。然后可结合页面内容相关性判断模型和实际情况,确定出段落占比对应的权重,并结合URL相关性判断模型确定词组占比对应的权重,利用公式Q=α·Purl+β·Pparagraph计算检索网页对应的主题总分值,其中,Q表征所述主题总分值,Purl表征所述词组占比,α表征所述词组占比对应的权重值,Pparagraph表征所述段落占比,β表征所述段落占比对应的权重值。
步骤214:判断所述主题总分值是否大于预设的总分阈值,如果是,则执行步骤215,否则执行步骤216。
步骤215:确定所述检索网页为主题网页,存储并输出所述主题网页。
步骤216:确定所述检索网页为无关网页。
根据主题总分值进行判断的方式能更准确地确定出检索网页与检索主题的相关性,从而有利于进一步提高检索主题网页的准确性。
如图3所示,本发明实施例提供了一种主题网页的检索装置,包括:构建单元301、获取单元302、段落占比确定单元303、主题网页确定单元304;其中,
所述构建单元301,用于确定检索主题,并构建与所述检索主题相对应的主题词库;
所述获取单元302,用于获取至少一个检索网页,并确定每一个所述检索网页对应的页面内容和统一资源定位符URL地址;
所述段落占比确定单元303,用于针对所述获取单元302获取到的每一个所述检索网页,均执行:根据所述检索网页对应的页面内容的字数,将所述页面内容划分为至少两个段落;其中,每两个所述段落对应的字数之差不大于预设的字数差阈值;并根据所述构建单元301构建的主题词库,从划分出的所述至少两个段落中确定出至少一个有效段落,并确定出所述有效段落的段落占比;
所述主题网页确定单元304,用于确定所述段落占比确定单元303确定出的段落占比是否大于预设的段落占比阈值,如果是,从所述检索网页对应的URL地址中确定出至少一个主题地址词组,并确定所述主题地址词组对应的词组占比;根据确定出的所述词组占比和所述段落占比,确定所述检索网页对应的主题总分值;确定所述主题总分值是否大于预设的总分阈值,如果是,确定所述检索网页为主题网页。
如图4所示,本发明一个实施例中,所述主题词库包括:与所述检索主题相对应的至少一个关键词;
所述段落占比确定单元303,包括:主题词确定子单元401、主题字数占比计算子单元402和有效段落确定子单元403;其中,
所述主题词确定子单元401,用于针对划分出的每一个所述段落,均执行:根据所述主题词库,确定所述段落中是否存在至少一个与所述关键词相对应的主题词,如果存在,确定所述主题词的个数,以及每个所述主题词对应的字数;
所述主题字数占比计算子单元402,用于根据确定出的所述主题词的个数,每个所述主题词对应的字数,以及所述段落对应的总字数,利用下述第一计算公式,计算所述段落中的主题词对应的主题字数占比;
Figure GDA0002232987160000151
其中,Pcontent表征所述主题字数占比,pi表征第i个所述主题词的字数, k表征所述段落中的主题词的个数,ncontent表征所述段落对应的总字数;
所述有效段落确定子单元403,用于确定计算出的所述主题字数占比是否大于预设的字数占比阈值,如果是,将所述段落确定为所述有效段落。
本发明一个实施例中,所述段落占比确定单元303,用于根据确定出的所述有效段落的个数,以及划分出的所述段落的总个数,利用下述第二计算公式,计算所述有效段落的段落占比;
Pparagraph=nremain/m
其中,Pparagraph表征所述有效段落的段落占比,nremain表征所述有效段落的个数,m表征所述段落的总个数。
如图5所示,本发明一个实施例中,所述主题词库包括:与所述检索主题相对应的至少一个地址字段;
所述主题网页确定单元304包括:主题地址词组确定子单元501和词组占比计算子单元502;其中,
所述主题 地址词组确定子单元501,用于从所述URL地址中解析出至少一个地址词组,根据所述主题词库,确定解析出的所述地址词组中是否存在至少一个与所述地址字段相对应的地址词组,如果存在,则将确定出的所述地址词组作为所述主题地址词组;
所述词组占比计算子单元502,用于根据所述主题地址词组的数量以及所述URL地址中包括的所述地址词组的总数量,利用下述第三计算公式,计算所述主题地址词组对应的词组占比;
Purl=Nurl/Murl
其中,Purl表征所述主题地址词组对应的词组占比,Nurl表征所述主题地址词组的数量,Murl表征所述地址词组的总数量。
本发明一个实施例中,所述主题网页确定单元304,用于确定所述词组占比以及所述段落占比分别对应的权重值,根据确定出的所述权重值、所述词组占比以及所述段落占比,利用下述第四计算公式,计算所述主题总分值;
Q=α·Purl+β·Pparagraph
其中,Q表征所述主题总分值,Purl表征所述词组占比,α表征所述词组占比对应的权重值,Pparagraph表征所述段落占比,β表征所述段落占比对应的权重值。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明实施例还提供了一种可读介质,包括执行指令,当存储控制器的处理器执行所述执行指令时,所述存储控制器执行本发明上述任一实施例提供的方法。
本发明实施例还提供了一种存储控制器,包括:处理器、存储器和总线;所述存储器用于存储执行指令,所述处理器与所述存储器通过所述总线连接,当所述存储控制器运行时,所述处理器执行所述存储器存储的所述执行指令,以使所述存储控制器执行本发明上述任一实施例提供的方法。
综上所述,本发明以上各个实施例至少具有如下有益效果:
1、在本发明实施例中,根据确定检索网页对应的页面内容中与检索主题相对应的有效段落和有效段落的段落占比,并确定检索网页对应的URL地址中包括的主题地址词组和主题地址词组对应的词组占比,根据确定出的与网页内容相关的段落占比和与URL地址相关的词组占比,确定该检索网页对应的主题总分值,当主题总分值大于预设的总分阈值时,将该检索网页确定为主题网页。由于对页面内容和URL地址进行了双重检索,并通过相应的段落占比和词组占比进行综合判断,而不仅仅是判断页面内容中是否携带有关键词,因此检索出的主题网页的准确性更高,从而提高了检索主题网页的准确性。同时,由于检索出的网页中减少了与检索主题无关的网页,这在一定程度上节省了系统资源、网络带宽和时间。
2、在本发明实施例中,通过对检索网页的页面内容进行分段,并根据主题词库,确定出划分出的每个段落中的主题词,以及每个主题词对应的字数,然后根据确定出的主题词的个数和每个主题词对应的字数,以及段落的总字数,确定该段落中主题字数占比,并根据主题字数占比,确定出页面内容中包括的有效段落,由此有利于准确确定页面内容与检索主题的相关性,有利于进一步提高检索主题网页的准确性。
3、在本发明实施例中,根据确定出的有效段落的个数,以及划分出的段落的总个数,确定检索网页中有效段落的段落占比,这有利于从整体上确定页面内容与检索主题的相关性,从而有利于进一步提高检索主题网页的准确性。
4、在本发明实施例中,根据主题词库,准确确定出URL地址中包括的主题地址词组与地址词组之间的比例,即词组占比,有利于准确确定出检索网页对应的URL地址与检索主题的相关性,从而有利于进一步提高检索主题网页的准确性。
5、在本发明实施例中,通过为段落占比和词组占比赋予相应的权重值,根据段落占比和词组占比及其分别对应的权重值确定出主题总分值,根据总分值判断检索网页是否为主题网页,由此更准确地确定出检索网页与检索主题的相关性,从而有利于进一步提高检索主题网页的准确性。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种主题网页的检索方法,其特征在于,包括:
确定检索主题,并构建与所述检索主题相对应的主题词库;
获取至少一个检索网页,并确定每一个所述检索网页对应的页面内容和统一资源定位符URL地址;
针对每一个所述检索网页,均执行:
根据所述检索网页对应的页面内容的字数,将所述页面内容划分为至少两个段落;其中,每两个所述段落对应的字数之差不大于预设的字数差阈值;
根据所述主题词库,从划分出的所述至少两个段落中确定出至少一个有效段落,并确定出所述有效段落的段落占比;
确定所述段落占比是否大于预设的段落占比阈值,如果是,从所述检索网页对应的URL地址中确定出至少一个主题地址词组,并确定所述主题地址词组对应的词组占比;
根据确定出的所述词组占比和所述段落占比,确定所述检索网页对应的主题总分值;
确定所述主题总分值是否大于预设的总分阈值,如果是,确定所述检索网页为主题网页。
2.根据权利要求1所述的方法,其特征在于,
所述主题词库包括:与所述检索主题相对应的至少一个关键词;
所述根据所述主题词库,从划分出的所述至少两个段落中确定出至少一个有效段落,包括:
针对划分出的每一个所述段落,均执行:
根据所述主题词库,确定所述段落中是否存在至少一个与所述关键词相对应的主题词;
如果存在,确定所述主题词的个数,以及每个所述主题词对应的字数;
根据确定出的所述主题词的个数、每个所述主题词对应的字数,以及所述段落对应的总字数,利用下述第一计算公式,计算所述段落中的主题词对应的主题字数占比;
Figure FDA0002232987150000021
其中,Pcontent表征所述主题字数占比,pi表征第i个所述主题词的字数,k表征所述段落中的主题词的个数,ncontent表征所述段落对应的总字数;
确定计算出的所述主题字数占比是否大于预设的字数占比阈值,如果是,将所述段落确定为所述有效段落。
3.根据权利要求1或2所述的方法,其特征在于,
所述确定出所述有效段落的段落占比,包括:
根据确定出的所述有效段落的个数,以及划分出的所述段落的总个数,利用下述第二计算公式,计算所述有效段落的段落占比;
Pparagraph=nremain/m
其中,Pparagraph表征所述有效段落的段落占比,nremain表征所述有效段落的个数,m表征所述段落的总个数。
4.根据权利要求1所述的方法,其特征在于,
所述主题词库包括:与所述检索主题相对应的至少一个地址字段;
所述从所述检索网页对应的URL地址中确定出至少一个主题地址词组,并确定所述主题地址词组对应的词组占比,包括:
从所述URL地址中解析出至少一个地址词组;
根据所述主题词库,确定解析出的所述地址词组中是否存在至少一个与所述地址字段相对应的地址词组,如果存在,则将确定出的所述地址词组作为所述主题地址词组;
根据所述主题地址词组的数量以及所述URL地址中包括的所述地址词组的总数量,利用下述第三计算公式,计算所述主题地址词组对应的词组占比;
Purl=Nurl/Murl
其中,Purl表征所述主题地址词组对应的词组占比,Nurl表征所述主题地址词组的数量,Murl表征所述地址词组的总数量。
5.根据权利要求1所述的方法,其特征在于,
所述根据确定出的所述词组占比和所述段落占比,确定所述检索网页对应的主题总分值,包括:
确定所述词组占比以及所述段落占比分别对应的权重值;
根据确定出的所述权重值、所述词组占比以及所述段落占比,利用下述第四计算公式,计算所述主题总分值;
Q=α·Purl+β·Pparagraph
其中,Q表征所述主题总分值,Purl表征所述词组占比,α表征所述词组占比对应的权重值,Pparagraph表征所述段落占比,β表征所述段落占比对应的权重值。
6.一种主题网页的检索装置,其特征在于,包括:构建单元、获取单元、段落占比确定单元、主题网页确定单元;其中,
所述构建单元,用于确定检索主题,并构建与所述检索主题相对应的主题词库;
所述获取单元,用于获取至少一个检索网页,并确定每一个所述检索网页对应的页面内容和统一资源定位符URL地址;
所述段落占比确定单元,用于针对所述获取单元获取到的每一个所述检索网页,均执行:根据所述检索网页对应的页面内容的字数,将所述页面内容划分为至少两个段落;其中,每两个所述段落对应的字数之差不大于预设的字数差阈值;并根据所述构建单元构建的主题词库,从划分出的所述至少两个段落中确定出至少一个有效段落,并确定出所述有效段落的段落占比;
所述主题网页确定单元,用于确定所述段落占比确定单元确定出的段落占比是否大于预设的段落占比阈值,如果是,从所述检索网页对应的URL地址中确定出至少一个主题地址词组,并确定所述主题地址词组对应的词组占比;根据确定出的所述词组占比和所述段落占比,确定所述检索网页对应的主题总分值;确定所述主题总分值是否大于预设的总分阈值,如果是,确定所述检索网页为主题网页。
7.根据权利要求6所述的装置,其特征在于,
所述主题词库包括:与所述检索主题相对应的至少一个关键词;
所述段落占比确定单元,包括:主题词确定子单元、主题字数占比计算子单元和有效段落确定子单元;其中,
所述主题词确定子单元,用于针对划分出的每一个所述段落,均执行:根据所述主题词库,确定所述段落中是否存在至少一个与所述关键词相对应的主题词,如果存在,确定所述主题词的个数,以及每个所述主题词对应的字数;
所述主题字数占比计算子单元,用于根据确定出的所述主题词的个数,每个所述主题词对应的字数,以及所述段落对应的总字数,利用下述第一计算公式,计算所述段落中的主题词对应的主题字数占比;
Figure FDA0002232987150000041
其中,Pcontent表征所述主题字数占比,pi表征第i个所述主题词的字数,k表征所述段落中的主题词的个数,ncontent表征所述段落对应的总字数;
所述有效段落确定子单元,用于确定计算出的所述主题字数占比是否大于预设的字数占比阈值,如果是,将所述段落确定为所述有效段落。
8.根据权利要求6或7所述的装置,其特征在于,
所述段落占比确定单元,用于根据确定出的所述有效段落的个数,以及划分出的所述段落的总个数,利用下述第二计算公式,计算所述有效段落的段落占比;
Pparagraph=nremain/m
其中,Pparagraph表征所述有效段落的段落占比,nremain表征所述有效段落的个数,m表征所述段落的总个数。
9.根据权利要求6所述的装置,其特征在于,
所述主题词库包括:与所述检索主题相对应的至少一个地址字段;
所述主题网页确定单元包括:主题地址词组确定子单元和词组占比计算子单元;其中,
主题 地址词组确定子单元,用于从所述URL地址中解析出至少一个地址词组,根据所述主题词库,确定解析出的所述地址词组中是否存在至少一个与所述地址字段相对应的地址词组,如果存在,则将确定出的所述地址词组作为所述主题地址词组;
所述词组占比计算子单元,用于根据所述主题地址词组的数量以及所述URL地址中包括的所述地址词组的总数量,利用下述第三计算公式,计算所述主题地址词组对应的词组占比;
Purl=Nuri/Murl
其中,Purl表征所述主题地址词组对应的词组占比,Nurl表征所述主题地址词组的数量,Murl表征所述地址词组的总数量。
10.根据权利要求6所述的装置,其特征在于,
所述主题网页确定单元,用于确定所述词组占比以及所述段落占比分别对应的权重值,根据确定出的所述权重值、所述词组占比以及所述段落占比,利用下述第四计算公式,计算所述主题总分值;
Q=α·Purl+β·Pparagraph
其中,Q表征所述主题总分值,Purl表征所述词组占比,α表征所述词组占比对应的权重值,Pparagraph表征所述段落占比,β表征所述段落占比对应的权重值。
CN201710864482.9A 2017-09-22 2017-09-22 一种主题网页的检索方法及装置 Active CN107657005B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710864482.9A CN107657005B (zh) 2017-09-22 2017-09-22 一种主题网页的检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710864482.9A CN107657005B (zh) 2017-09-22 2017-09-22 一种主题网页的检索方法及装置

Publications (2)

Publication Number Publication Date
CN107657005A CN107657005A (zh) 2018-02-02
CN107657005B true CN107657005B (zh) 2020-03-20

Family

ID=61130847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710864482.9A Active CN107657005B (zh) 2017-09-22 2017-09-22 一种主题网页的检索方法及装置

Country Status (1)

Country Link
CN (1) CN107657005B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630327A (zh) * 2009-08-14 2010-01-20 昆明理工大学 一种主题网络爬虫系统的设计方法
CN102945253A (zh) * 2012-10-17 2013-02-27 北京奇虎科技有限公司 一种搜索服务器及搜索方法
CN103294693A (zh) * 2012-02-27 2013-09-11 华为技术有限公司 搜索方法、服务器及系统
CN105550359A (zh) * 2015-12-31 2016-05-04 北京金山安全软件有限公司 一种基于垂直搜索的网页排序方法、装置及服务器
CN106339378A (zh) * 2015-07-07 2017-01-18 中国科学院信息工程研究所 基于关键词导向的主题网络爬虫的数据搜集方法
CN106980677A (zh) * 2017-03-30 2017-07-25 电子科技大学 面向行业的主题搜索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100930455B1 (ko) * 2007-09-06 2009-12-08 엔에이치엔(주) 쿼리별 검색 컬렉션 생성 방법 및 시스템

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630327A (zh) * 2009-08-14 2010-01-20 昆明理工大学 一种主题网络爬虫系统的设计方法
CN103294693A (zh) * 2012-02-27 2013-09-11 华为技术有限公司 搜索方法、服务器及系统
CN102945253A (zh) * 2012-10-17 2013-02-27 北京奇虎科技有限公司 一种搜索服务器及搜索方法
CN106339378A (zh) * 2015-07-07 2017-01-18 中国科学院信息工程研究所 基于关键词导向的主题网络爬虫的数据搜集方法
CN105550359A (zh) * 2015-12-31 2016-05-04 北京金山安全软件有限公司 一种基于垂直搜索的网页排序方法、装置及服务器
CN106980677A (zh) * 2017-03-30 2017-07-25 电子科技大学 面向行业的主题搜索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于本体概念相似度的网页排序算法研究;张健等;《情报学报》;20131124(第11期);第1174-1183页 *

Also Published As

Publication number Publication date
CN107657005A (zh) 2018-02-02

Similar Documents

Publication Publication Date Title
Sun et al. Dom based content extraction via text density
CN110162750B (zh) 文本相似度检测方法、电子设备及计算机可读存储介质
Liu et al. Identifying web spam with the wisdom of the crowds
US20150278345A1 (en) Method, apparatus, and server for acquiring recommended topic
CN108959413B (zh) 一种主题网页爬取方法及主题爬虫系统
WO2018095411A1 (zh) 一种网页聚类方法及装置
US20190108215A1 (en) Automated quantitative assessment of text complexity
US10810245B2 (en) Hybrid method of building topic ontologies for publisher and marketer content and ad recommendations
CN108520007B (zh) 万维网网页信息提取方法、存储介质及计算机设备
KR101541306B1 (ko) 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체
CN109165373B (zh) 一种数据处理方法及装置
CN108153728B (zh) 一种关键词确定方法及装置
Geng et al. Evaluating web content quality via multi-scale features
US20170235835A1 (en) Information identification and extraction
WO2022105178A1 (zh) 一种关键词提取的方法及相关装置
CN113806483A (zh) 数据处理方法、装置、电子设备及计算机程序产品
JP2005346598A (ja) ウェブ情報収集装置とウェブクローラープログラム、及びウェブ情報収集方法
JP2010224984A (ja) 特許明細書評価・作成作業支援装置、方法及びプログラム
CN109344397B (zh) 文本特征词语的提取方法及装置、存储介质及程序产品
US10521655B1 (en) Generating and provisioning of additional content for biased portion(s) of a document
CN107657005B (zh) 一种主题网页的检索方法及装置
JP5179564B2 (ja) クエリセグメント位置決定装置
CN109241438B (zh) 基于要素的跨通道热点事件发现方法、装置及存储介质
CN111382385A (zh) 网页所属行业分类方法及装置
CN110609997B (zh) 生成文本的摘要的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 250100 No. 1036 Tidal Road, Jinan High-tech Zone, Shandong Province, S01 Building, Tidal Science Park

Patentee after: Inspur cloud Information Technology Co., Ltd

Address before: 250100 No. 1036 Tidal Road, Jinan High-tech Zone, Shandong Province, S01 Building, Tidal Science Park

Patentee before: Tidal Cloud Information Technology Co.,Ltd.

CP01 Change in the name or title of a patent holder