CN111061955B - 网页正文的提取方法、装置、服务器和存储介质 - Google Patents

网页正文的提取方法、装置、服务器和存储介质 Download PDF

Info

Publication number
CN111061955B
CN111061955B CN201911329406.3A CN201911329406A CN111061955B CN 111061955 B CN111061955 B CN 111061955B CN 201911329406 A CN201911329406 A CN 201911329406A CN 111061955 B CN111061955 B CN 111061955B
Authority
CN
China
Prior art keywords
text
target
determining
hamming distance
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911329406.3A
Other languages
English (en)
Other versions
CN111061955A (zh
Inventor
方志杰
房海灏
熊兴文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhumo Technology Co ltd
Original Assignee
Shenzhen Zhumo Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhumo Technology Co ltd filed Critical Shenzhen Zhumo Technology Co ltd
Priority to CN201911329406.3A priority Critical patent/CN111061955B/zh
Publication of CN111061955A publication Critical patent/CN111061955A/zh
Application granted granted Critical
Publication of CN111061955B publication Critical patent/CN111061955B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明实施例提供了一种网页正文的提取方法、装置、服务器和存储介质。该网页正文的提取方法包括:接收用户输入的查询关键字;基于搜索引擎对所述查询关键字进行查询,得到所述查询关键字对应的查询结果,所述查询结果包括摘要信息和详情页信息;基于多个提取引擎对所述详情页信息进行提取,得到多个正文文本,每个正文文本对应一个提取引擎;基于所述摘要信息和所述多个正文文本的匹配关系,在所述多个正文文本中确定目标正文文本。通过使用多个提取引擎提取正文文本,再确定目标正文文本,达到获取高质量的正文信息,提高正文信息内容的准确性的效果。

Description

网页正文的提取方法、装置、服务器和存储介质
技术领域
本发明实施例涉及计算机应用技术领域,尤其涉及一种网页正文的提取方法、装置、服务器和存储介质。
背景技术
目前,互联网已成为人们获取信息的重要资源,而提取引擎是人们获取互联网上网页的正文信息的主要工具。
目前,获取正文信息的主流方法是输入关键字,通过搜索引擎(例如百度引擎)对关键字进行搜索,将搜索的结果展示在HTML的页面中。再通过单个提取引擎对页面进行提取,从而得到正文信息,展示给用户。
然而,由于网页结构的多样性,使用单个提取引擎对页面进行提取得到正文信息时,对于某些网页解析的效果并不好,得到正文信息质量低,正文信息的内容不准确。
发明内容
本发明实施例提供一种网页正文的提取方法、装置、服务器和存储介质,以实现获取高质量的正文信息,提高正文信息内容的准确性的效果。
第一方面,本发明实施例提供了一种网页正文的提取方法,包括:
接收用户输入的查询关键字;
基于搜索引擎对所述查询关键字进行查询,得到所述查询关键字对应的查询结果,所述查询结果包括摘要信息和详情页信息;
基于多个提取引擎对所述详情页信息进行提取,得到多个正文文本,每个正文文本对应一个提取引擎;
基于所述摘要信息和所述多个正文文本的匹配关系,在所述多个正文文本中确定目标正文文本。
可选的,所述基于所述摘要信息和所述多个正文文本的匹配关系,在所述多个正文文本中确定目标正文文本,包括:
计算所述摘要信息的摘要哈希值,以及对应每一个正文文本的多个正文哈希值;
根据所述摘要哈希值和多个正文哈希值,确定对应每一个正文文本的多个海明距离;
根据所述多个海明距离确定所述目标正文文本。
可选的,所述根据所述多个海明距离确定所述目标正文文本,包括:
在所述多个海明距离中确定目标海明距离;
确定所述目标海明距离对应的正文文本的第一文本数量;
判断所述目标海明距离和所述第一文本数量是否满足预设条件;
如果所述目标海明距离和所述第一文本数量满足预设条件,则将所述目标海明距离对应的正文文本作为所述目标正文文本;
如果所述目标海明距离和所述第一文本数量不满足预设条件,则基于匹配规则确定所述目标正文文本。
可选的,所述如果所述目标海明距离和所述第一文本数量满足预设条件,则将所述目标海明距离对应的正文文本作为所述目标正文文本,包括:
如果所述目标海明距离小于或等于海明距离阈值,且所述第一文本数量大于第一数量阈值,则将所述目标海明距离对应的正文文本作为所述目标正文文本。
可选的,所述详情页信息包括对应所述正文文本的原始文本,所述基于匹配规则确定所述目标正文文本,包括:
计算所述原始文本的第二文本数量;
计算每一个正文文本的文本数量,得到对应每一个正文文本的多个第三文本数量;
如果所述第二文本数量大于第二数量阈值且小于第三数量阈值,则将所述多个第三文本数量中最大值对应的正文文本作为所述目标正文文本;
如果所述第二文本数量大于第三数量阈值,则根据所述多个第三文本数量确定所述目标正文文本。
可选的,所述根据所述多个第三文本数量确定所述目标正文文本,包括:
如果每一个所述第三文本数量均大于第四数量阈值,则将所述多个第三文本数量中的最小值对应的正文文本作为所述目标正文文本;
如果所述多个第三文本数量有至少一个小于第四数量阈值,则基于所述多个提取引擎的优先级和第三文本数量确定所述目标正文文本。
可选的,所述多个提取引擎包括boilerpip、goose、webCollector和Jsoup解析器中的至少两个。
第二方面,本发明实施例提供了一种网页正文的提取装置,包括:
接收模块,用于接收用户输入的查询关键字;
查询模块,用于基于搜索引擎对所述查询关键字进行查询,得到所述查询关键字对应的查询结果,所述查询结果包括摘要信息和详情页信息;
提取模块,用于基于多个提取引擎对所述详情页信息进行提取,得到多个正文文本,每个正文文本对应一个提取引擎;
筛选模块,用于基于所述摘要信息和所述多个正文文本的匹配关系,在所述多个正文文本中确定目标正文文本。
第三方面,本发明实施例提供了一种服务器,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例所述的网页正文的提取方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所述的网页正文的提取方法。
本发明实施例通过接收用户输入的查询关键字;基于搜索引擎对所述查询关键字进行查询,得到所述查询关键字对应的查询结果,所述查询结果包括摘要信息和详情页信息;基于多个提取引擎对所述详情页信息进行提取,得到多个正文文本,每个正文文本对应一个提取引擎;基于所述摘要信息和所述多个正文文本的匹配关系,在所述多个正文文本中确定目标正文文本,解决了使用单个提取引擎对页面进行提取得到正文信息时,对于某些网页解析的效果并不好,得到正文信息质量低,正文信息的内容不准确的问题,实现了获取高质量的正文信息,提高正文信息内容的准确性的效果。
附图说明
图1是本发明实施例一提供的一种网页正文的提取方法的流程示意图;
图2是本发明实施例二提供的一种网页正文的提取方法的流程示意图;
图3是本发明实施例三提供的一种网页正文的提取装置的结构示意图;
图4是本发明实施例四提供的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。
此外,术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等,但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一文本数量为第二文本数量,且类似地,可将第二文本数量称为第一文本数量。第一文本数量和第二文本数量两者都是文本数量,但其不是同一文本数量。术语“第一”、“第二”等而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
实施例一
图1为本发明实施例一提供的一种网页正文的提取方法的流程示意图,可适用于对网页的正文文本进行提取的场景,该方法可以由网页正文的提取装置来执行,该装置可以采用软件和/或硬件的方式实现,并可集成在服务器上。
如图1所示,本发明实施例一提供的网页正文的提取方法包括:
S110、接收用户输入的查询关键字。
其中,查询关键字是指用户需要获取相应的搜索结果而输入的文字和/或字符。在本实施例中,对于查询关键字的具体文字和/或字符不作限制。
S120、基于搜索引擎对所述查询关键字进行查询,得到所述查询关键字对应的查询结果,所述查询结果包括摘要信息和详情页信息。
其中,搜索引擎是指用于对查询关键字进行查询,以获取相对应查询结果的查询工具。例如,百度搜索引擎或搜狗搜索引擎等。在本实施例中,对于具体的搜索引擎不作限制。查询结果是指搜索引擎根据查询关键字查询到的网页结果。具体的,使用不同的搜索引擎对查询关键字进行查询,得到的查询结果不一定一致。具体的,使用搜索引擎进行搜索时,会在网页界面上显示对应查询关键字的多个查询结果。具体的,每一个查询结果包括摘要信息和详情页信息。摘要信息是指对应的查询结果的要点。具体的,在使用搜索引擎进行搜索时,在网页界面上显示多个查询结果时,每个查询结果都有一定的文字介绍,则此部分文字介绍为摘要信息。详情页信息是指对应查询结果的详细内容,通过详情页信息可以获取对应摘要信息的正文文本。具体的,详情页信息为对应正文文本的HTML(HyperTextMarkup Language、超级文本标记语言)详情页。HTML是由HTML命令组成的描述性文本,提取引擎可以通过HTML获取对应查询结果的正文文本。
S130、基于多个提取引擎对所述详情页信息进行提取,得到多个正文文本,每个正文文本对应一个提取引擎。
其中,提取引擎是指用于从详情页信息提取正文文本的工具。在本实施例中,可选的,多个提取引擎包括但不限于boilerpip、goose、webCollector和Jsoup解析器等多个提取引擎中的至少两个。具体的,boilerpip是一款开源的HTML全文提取工具,能正确提取正文,对于提取论坛类网页效果较好,对于提取某些新闻类网页效果最好。goose是一款开源的HTML文章提取工具,能正确提取正文,但文本未进行压缩,提取某些新闻类网页效果最佳,提取论坛类网页效果差。webCollector是一款开源的HTML文本提取工具,基于JAVA(一种计算机编程语言),能正确提取正文,且已压缩,提取新闻类网站综合效果最佳,提取论坛类网页效果差。Jsoup解析器是一款Java的HTML解析器,可直接解析某个URL(uniformresource locator,统一资源定位系统)地址、HTML文本内容。正文文本是指对应摘要信息的详细内容的文本。具体的,每一个提取引擎均提取一个对应的正文文本,则提取引擎的数量有n个,则正文文本的数量也为n个。具体的,多个正文文本中的每一个正文文本,均是对应摘要信息的正文文本,但由于是通过不同的提取引擎提取得到的,因此不同提取引擎对应的正文文本的内容描述、字数等会不一致。
S140、基于所述摘要信息和所述多个正文文本的匹配关系,在所述多个正文文本中确定目标正文文本。
其中,匹配关系是指摘要信息和正文文本之间的匹配或适合程度。目标正文文本是指对应提取效果最佳的提取引擎所提取的正文文本。具体的,根据每一个引擎的正文文本与摘要信息的匹配关系,确定出一个效果最佳的正文文本,作为目标正文文本。
具体的,由于不同提取引擎对于不同网页的正文文本的提取效果不同,采用单个提取引擎提取正文文本,对于某一些网页的提取效果并不是最佳的。而本实施例通过使用多个提取引擎对网页的正文文本进行提取,在多个正文文本中确定最佳的目标正文文本,从而给用户推送最佳的正文文本,达到了获取高质量的正文信息,提高正文信息内容的准确性的效果。
本发明实施例的技术方案,通过接收用户输入的查询关键字;基于搜索引擎对所述查询关键字进行查询,得到所述查询关键字对应的查询结果,所述查询结果包括摘要信息和详情页信息;基于多个提取引擎对所述详情页信息进行提取,得到多个正文文本,每个正文文本对应一个提取引擎;基于所述摘要信息和所述多个正文文本的匹配关系,在所述多个正文文本中确定目标正文文本,由于不同提取引擎对于不同网页的正文文本的提取效果不同,采用单个提取引擎提取正文文本,对于某一些网页的提取效果并不是最佳的,使用多个提取引擎对网页的正文文本进行提取,在多个正文文本中确定最佳的目标正文文本,从而给用户推送最佳的正文文本,达到获取高质量的正文信息,提高正文信息内容的准确性的技术效果。
实施例二
图2是本发明实施例二提供的一种网页正文的提取方法的流程示意图。本实施例是在上述技术方案的进一步细化,适用于对网页的正文文本进行提取的场景。该方法可以由网页正文的提取装置来执行,该装置可以采用软件和/或硬件的方式实现,并可集成在服务器上。
如图2所示,本发明实施例二提供的网页正文的提取方法包括:
S210、接收用户输入的查询关键字。
其中,查询关键字是指用户需要获取相应的搜索结果而输入的文字和/或字符。在本实施例中,对于查询关键字的具体文字和/或字符不作限制。
S220、基于搜索引擎对所述查询关键字进行查询,得到所述查询关键字对应的查询结果,所述查询结果包括摘要信息和详情页信息。
其中,搜索引擎是指用于对查询关键字进行查询,以获取相对应查询结果的查询工具。查询结果是指搜索引擎根据查询关键字查询到的网页结果。具体的,使用搜索引擎进行搜索时,会在网页界面上显示对应查询关键字的多个查询结果。具体的,每一个查询结果包括摘要信息和详情页信息。摘要信息是指对应的查询结果的要点。详情页信息是指对应查询结果的详细内容,通过详情页信息可以获取对应摘要信息的正文文本。具体的,详情页信息为对应正文文本的HTML(HyperText Markup Language、超级文本标记语言)详情页。HTML是由HTML命令组成的描述性文本,提取引擎可以通过HTML获取对应查询结果的正文文本。
S230、基于多个提取引擎对所述详情页信息进行提取,得到多个正文文本,每个正文文本对应一个提取引擎。
其中,提取引擎是指用于从详情页信息提取正文文本的工具。在本实施例中,可选的,多个提取引擎包括但不限于boilerpip、goose、webCollector和Jsoup解析器等多个提取引擎中的至少两个。正文文本是指对应摘要信息的详细内容的文本。具体的,每一个提取引擎均提取一个对应的正文文本,则提取引擎的数量有n个,则正文文本的数量也为n个。具体的,多个正文文本中的每一个正文文本,均是对应摘要信息的正文文本,但由于是通过不同的提取引擎提取得到的,因此不同提取引擎对应的正文文本的内容描述、字数等会不一致。
S240、计算所述摘要信息的摘要哈希值,以及对应每一个正文文本的多个正文哈希值。
其中,摘要哈希值是指通过哈希算法计算摘要信息对应查询关键字的哈希数值。摘要哈希值体现了摘要信息与查询关键字的相似程度。正文哈希值是指通过哈希算法计算正文文本对应摘要信息的哈希数值。正文哈希值体现了正文信息与查询关键字的相似程度。哈希数值越大,则说明相似程度越高。可选的,可以通过哈希算法(例如Simhash算法)计算摘要哈希值和正文哈希值。Simhash算法是google发明的,专门用于海量文本去重的需求。Simhash可以将文本中的字符串计算成Simhash值,该值是由0和1构成,用于文本之间的计算相似度。
S250、根据所述摘要哈希值和多个正文哈希值,确定对应每一个正文文本的多个海明距离。
其中,海明距离是指两个字符串对应位置的不同字符的个数。海明距离越小,则说明两个字符串之间的相似程度越高。具体的,每一个正文文本均对应一个正文哈希值,则可以计算每一个正文文本的正文哈希值和摘要哈希值的海明距离,得到每一个正文文本的海明距离。
S260、根据所述多个海明距离确定所述目标正文文本。
其中,目标正文文本是指对应提取效果最佳的提取引擎所提取的正文文本。具体的,根据多个海明距离确定出目标正文文本。
在一个可选的实施方式中,根据所述多个海明距离确定所述目标正文文本,包括:
在所述多个海明距离中确定目标海明距离;
确定所述目标海明距离对应的正文文本的第一文本数量;
判断所述目标海明距离和所述第一文本数量是否满足预设条件;
如果所述目标海明距离和所述第一文本数量满足预设条件,则将所述目标海明距离对应的正文文本作为所述目标正文文本;
如果所述目标海明距离和所述第一文本数量不满足预设条件,则基于匹配规则确定所述目标正文文本。
其中,目标海明距离可以是多个海明距离中非最大的其中一个海明距离。在本实施方式中,优选的,目标海明距离是指多个海明距离中最小的海明距离。通过将最小的海明距离作为目标海明距离,则对应目标海明距离的正文文本的相似度最高。第一文本数量是指对应目标海明距离的正文文本的文本数量。可选的,文本数量可以是统计正文文本中汉字数、英文字数和数值其中至少一项的总数量。优选的,文本数量为汉字数,则第一文本数量为目标海明距离对应的正文文本中的汉字数。预设条件是指判断如何确定目标正文文本的条件。可选的,预设条件可以是如果所述目标海明距离小于或等于海明距离阈值,且所述第一文本数量大于第一数量阈值。在本实施方式中,海明距离阈值可以是1-50的任一数值,此处不作限制。优选的,海明距离阈值为22。第一数量阈值可以是10-40的任一数值,此处不作限制。优选的,第一数量阈值为20。匹配规则是指目标海明距离和第一文本数量不满足预设条件时,确定目标正文文本的规则。
在一个可选的实施方式中,详情页信息包括对应所述正文文本的原始文本,所述基于匹配规则确定所述目标正文文本,包括:
计算所述原始文本的第二文本数量;
计算每一个正文文本的文本数量,得到对应每一个正文文本的多个第三文本数量;
如果所述第二文本数量大于第二数量阈值且小于第三数量阈值,则将所述多个第三文本数量中最大值对应的正文文本作为所述目标正文文本;
如果所述第二文本数量大于第三数量阈值,则根据所述多个第三文本数量确定所述目标正文文本。
其中,原始文本是指提取引擎进行提取之前对应摘要信息的正文信息。通过提取引擎提取的正文文本与原始文本的文本内容会有一定的丢失或改变,正文文本与原始文本不一定完全一致。第二文本数量是指原始文本的文本数。优选的,第二文本数量为原始文本中的汉字数。第三文本数量是指正文文本的文本数,优选的,第三文本数量为正文文本的汉字数。具体的,第三文本数量和正文文本是一一对应的关系。第二数量阈值可以是10-40的任一数值,此处不作限制。优选的,第二数量阈值为20。优选的,第二数量阈值与第一数量阈值的数值相等。第三数量阈值可以是80-150的任一数值,此处不作限制。优选的,第三数量阈值为120。具体的,如果第二文本数量大于第二数量阈值且小于第三数量阈值,则在多个第三文本数量中确定最大值,将最大值对应的正文文本作为目标正文文本。如果第二文本数量大于第三数量阈值,则需要根据多个第三文本数量确定目标正文文本。
在一个可选的实施方式中,根据所述多个第三文本数量确定所述目标正文文本,包括:
如果每一个所述第三文本数量均大于第四数量阈值,则将所述多个第三文本数量中的最小值对应的正文文本作为所述目标正文文本;
如果所述多个第三文本数量有至少一个小于第四数量阈值,则基于所述多个提取引擎的优先级和第三文本数量确定所述目标正文文本。
其中,第四数量阈值可以是80-150的任一数值,此处不作限制。优选的,第四数量阈值为120。优选的,第四数量阈值与第三数量阈值的数值相等。具体的,当多个第二文本数量中的每一个第二文本数量大于第四数量阈值时,按照最精炼原则选择多个第三文本数量中的最小值,将最小值对应的正文文本作为目标正文文本。当多个第三文本数量有至少一个小于第四数量阈值时,则根据多个提取引擎的优先级和第三文本双确定目标正文文本。具体的,至少有一个第三文本数量小于第四数量阈值,有如下两种情况:至少有一个大于第四数量阈值和均小于第四数量阈值。当至少有一个第三文本数量小于第四数量阈值,且至少有一个第三文本数量大于第四数量阈值时,则确定大于第四数量阈值的第三文本数量,获取对应第三文本数量的正文文本,再根据正文文本对应的提取引擎的优先级,从优先级高到低的顺序,确定目标正文文本。例如,多个提取引擎包括boilerpip、goose和webCollector,其中boilerpip的优先级最高,goose次之,webCollector的优先级最低,当只有goose和webCollector的正文文本的第三文本数量大于第四数量阈值时,则将goose对应的正文文本作为目标正文文本。具体的,多个提取引擎的优先级可以提前根据需要进行配置。当每一个第三文本数量均小于第四数量阈值,则将优先级最高的提取引擎对应的正文文本作为目标正文文本。
本发明实施例的技术方案,通过接收用户输入的查询关键字;基于搜索引擎对所述查询关键字进行查询,得到所述查询关键字对应的查询结果,所述查询结果包括摘要信息和详情页信息;基于多个提取引擎对所述详情页信息进行提取,得到多个正文文本,每个正文文本对应一个提取引擎;基于所述摘要信息和所述多个正文文本的匹配关系,在所述多个正文文本中确定目标正文文本,由于不同提取引擎对于不同网页的正文文本的提取效果不同,采用单个提取引擎提取正文文本,对于某一些网页的提取效果并不是最佳的,使用多个提取引擎对网页的正文文本进行提取,在多个正文文本中确定最佳的目标正文文本,从而给用户推送最佳的正文文本,达到获取高质量的正文信息,提高正文信息内容的准确性的技术效果。
实施例三
图3是本发明实施例三提供的一种网页正文的提取装置的结构示意图,本实施例可适用于对网页的正文文本进行提取的场景,该装置可以采用软件和/或硬件的方式实现,并可集成在服务器上。
如图3所示,本实施例提供的网页正文的提取装置可以包括接收模块310、查询模块320、提取模块330和筛选模块340,其中:
接收模块310,用于接收用户输入的查询关键字;
查询模块320,用于基于搜索引擎对所述查询关键字进行查询,得到所述查询关键字对应的查询结果,所述查询结果包括摘要信息和详情页信息;
提取模块330,用于基于多个提取引擎对所述详情页信息进行提取,得到多个正文文本,每个正文文本对应一个提取引擎;
筛选模块340,用于基于所述摘要信息和所述多个正文文本的匹配关系,在所述多个正文文本中确定目标正文文本。
可选的,筛选模块340包括:
哈希值计算单元,用于计算所述摘要信息的摘要哈希值,以及对应每一个正文文本的多个正文哈希值;
海明距离确定单元,用于根据所述摘要哈希值和多个正文哈希值,确定对应每一个正文文本的多个海明距离;
目标正文文本确定单元,用于根据所述多个海明距离确定所述目标正文文本。
可选的,目标正文文本确定单元包括:
目标海明距离确定子单元,用于在所述多个海明距离中确定目标海明距离;
第一文本数量确定子单元,用于确定所述目标海明距离对应的正文文本的第一文本数量;
判断子单元,用于判断所述目标海明距离和所述第一文本数量是否满足预设条件;
目标正文文本确定子单元,用于如果所述目标海明距离和所述第一文本数量满足预设条件,则将所述目标海明距离对应的正文文本作为所述目标正文文本;
如果所述目标海明距离和所述第一文本数量不满足预设条件,则基于匹配规则确定所述目标正文文本。
可选的,目标正文文本确定子单元具体用于如果所述目标海明距离小于或等于海明距离阈值,且所述第一文本数量大于第一数量阈值,则将所述目标海明距离对应的正文文本作为所述目标正文文本。
可选的,目标正文文本确定子单元具体用于计算所述原始文本的第二文本数量;
计算每一个正文文本的文本数量,得到对应每一个正文文本的多个第三文本数量;
如果所述第二文本数量大于第二数量阈值且小于第三数量阈值,则将所述多个第三文本数量中最大值对应的正文文本作为所述目标正文文本;
如果所述第二文本数量大于第三数量阈值,则根据所述多个第三文本数量确定所述目标正文文本。
可选的,目标正文文本确定子单元具体用于如果每一个所述第三文本数量均大于第四数量阈值,则将所述多个第三文本数量中的最小值对应的正文文本作为所述目标正文文本;
如果所述多个第三文本数量有至少一个小于第四数量阈值,则基于所述多个提取引擎的优先级和第三文本数量确定所述目标正文文本。
可选的,所述多个提取引擎包括boilerpip、goose、webCollector和Jsoup解析器中的至少两个。
本发明实施例所提供的网页正文的提取装置可执行本发明任意实施例所提供的网页正文的提取方法,具备执行方法相应的功能模块和有益效果。本发明实施例中未详尽描述的内容可以参考本发明任意方法实施例中的描述。
实施例四
图4是本发明实施例四提供的一种服务器的结构示意图。图4示出了适于用来实现本发明实施方式的示例性服务器612的框图。图4显示的服务器612仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,服务器612以通用服务器的形式表现。服务器612的组件可以包括但不限于:一个或者多个处理器616,存储装置628,连接不同系统组件(包括存储装置628和处理器616)的总线618。
总线618表示几类总线结构中的一种或多种,包括存储装置总线或者存储装置控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry SubversiveAlliance,ISA)总线,微通道体系结构(Micro Channel Architecture,MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(Peripheral Component Interconnect,PCI)总线。
服务器612典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器612访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储装置628可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory,RAM)630和/或高速缓存存储器632。终端612可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统634可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘,例如只读光盘(Compact Disc Read-Only Memory,CD-ROM),数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线618相连。存储装置628可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块642的程序/实用工具640,可以存储在例如存储装置628中,这样的程序模块642包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块642通常执行本发明所描述的实施例中的功能和/或方法。
服务器612也可以与一个或多个外部设备614(例如键盘、指向终端、显示器624等)通信,还可与一个或者多个使得用户能与该服务器612交互的终端通信,和/或与使得该服务器612能与一个或多个其它计算终端进行通信的任何终端(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口622进行。并且,服务器612还可以通过网络适配器620与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网(Wide AreaNetwork,WAN)和/或公共网络,例如因特网)通信。如图4所示,网络适配器620通过总线618与服务器612的其它模块通信。应当明白,尽管图中未示出,可以结合服务器612使用其它硬件和/或软件模块,包括但不限于:微代码、终端驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks,RAID)系统、磁带驱动器以及数据备份存储系统等。
处理器616通过运行存储在存储装置628中的程序,从而执行各种功能应用以及数据处理,例如实现本发明任意实施例所提供的一种网页正文的提取方法,该方法可以包括:
接收用户输入的查询关键字;
基于搜索引擎对所述查询关键字进行查询,得到所述查询关键字对应的查询结果,所述查询结果包括摘要信息和详情页信息;
基于多个提取引擎对所述详情页信息进行提取,得到多个正文文本,每个正文文本对应一个提取引擎;
基于所述摘要信息和所述多个正文文本的匹配关系,在所述多个正文文本中确定目标正文文本。
本发明实施例的技术方案,通过接收用户输入的查询关键字;基于搜索引擎对所述查询关键字进行查询,得到所述查询关键字对应的查询结果,所述查询结果包括摘要信息和详情页信息;基于多个提取引擎对所述详情页信息进行提取,得到多个正文文本,每个正文文本对应一个提取引擎;基于所述摘要信息和所述多个正文文本的匹配关系,在所述多个正文文本中确定目标正文文本,由于不同提取引擎对于不同网页的正文文本的提取效果不同,采用单个提取引擎提取正文文本,对于某一些网页的提取效果并不是最佳的,使用多个提取引擎对网页的正文文本进行提取,在多个正文文本中确定最佳的目标正文文本,从而给用户推送最佳的正文文本,达到获取高质量的正文信息,提高正文信息内容的准确性的技术效果。
实施例五
本发明实施例五还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的一种网页正文的提取方法,该方法可以包括:
接收用户输入的查询关键字;
基于搜索引擎对所述查询关键字进行查询,得到所述查询关键字对应的查询结果,所述查询结果包括摘要信息和详情页信息;
基于多个提取引擎对所述详情页信息进行提取,得到多个正文文本,每个正文文本对应一个提取引擎;
基于所述摘要信息和所述多个正文文本的匹配关系,在所述多个正文文本中确定目标正文文本。
本发明实施例的计算机可读存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
存储介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本发明实施例的技术方案,通过接收用户输入的查询关键字;基于搜索引擎对所述查询关键字进行查询,得到所述查询关键字对应的查询结果,所述查询结果包括摘要信息和详情页信息;基于多个提取引擎对所述详情页信息进行提取,得到多个正文文本,每个正文文本对应一个提取引擎;基于所述摘要信息和所述多个正文文本的匹配关系,在所述多个正文文本中确定目标正文文本,由于不同提取引擎对于不同网页的正文文本的提取效果不同,采用单个提取引擎提取正文文本,对于某一些网页的提取效果并不是最佳的,使用多个提取引擎对网页的正文文本进行提取,在多个正文文本中确定最佳的目标正文文本,从而给用户推送最佳的正文文本,达到获取高质量的正文信息,提高正文信息内容的准确性的技术效果。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (8)

1.一种网页正文的提取方法,其特征在于,包括:
接收用户输入的查询关键字;
基于搜索引擎对所述查询关键字进行查询,得到所述查询关键字对应的查询结果,所述查询结果包括摘要信息和详情页信息;
基于多个提取引擎对所述详情页信息进行提取,得到多个正文文本,每个正文文本对应一个提取引擎;
基于所述摘要信息和所述多个正文文本的匹配关系,在所述多个正文文本中确定目标正文文本,包括:
计算所述摘要信息的摘要哈希值,以及对应每一个正文文本的多个正文哈希值;
根据所述摘要哈希值和多个正文哈希值,确定对应每一个正文文本的多个海明距离;
根据所述多个海明距离确定所述目标正文文本,包括:
在所述多个海明距离中确定目标海明距离;
确定所述目标海明距离对应的正文文本的第一文本数量;
判断所述目标海明距离和所述第一文本数量是否满足预设条件;
如果所述目标海明距离和所述第一文本数量满足预设条件,则将所述目标海明距离对应的正文文本作为所述目标正文文本;
如果所述目标海明距离和所述第一文本数量不满足预设条件,则基于匹配规则确定所述目标正文文本。
2.如权利要求1所述的网页正文的提取方法,其特征在于,所述如果所述目标海明距离和所述第一文本数量满足预设条件,则将所述目标海明距离对应的正文文本作为所述目标正文文本,包括:
如果所述目标海明距离小于或等于海明距离阈值,且所述第一文本数量大于第一数量阈值,则将所述目标海明距离对应的正文文本作为所述目标正文文本。
3.如权利要求1所述的网页正文的提取方法,其特征在于,所述详情页信息包括对应所述正文文本的原始文本,所述基于匹配规则确定所述目标正文文本,包括:
计算所述原始文本的第二文本数量;
计算每一个正文文本的文本数量,得到对应每一个正文文本的多个第三文本数量;
如果所述第二文本数量大于第二数量阈值且小于第三数量阈值,则将所述多个第三文本数量中最大值对应的正文文本作为所述目标正文文本;
如果所述第二文本数量大于第三数量阈值,则根据所述多个第三文本数量确定所述目标正文文本。
4.如权利要求3所述的网页正文的提取方法,其特征在于,所述根据所述多个第三文本数量确定所述目标正文文本,包括:
如果每一个所述第三文本数量均大于第四数量阈值,则将所述多个第三文本数量中的最小值对应的正文文本作为所述目标正文文本;
如果所述多个第三文本数量有至少一个小于第四数量阈值,则基于所述多个提取引擎的优先级和第三文本数量确定所述目标正文文本。
5.如权利要求1所述的网页正文的提取方法,其特征在于,所述多个提取引擎包括boilerpip、goose、webCollector和Jsoup解析器中的至少两个。
6.一种网页正文的提取装置,其特征在于,包括:
接收模块,用于接收用户输入的查询关键字;
查询模块,用于基于搜索引擎对所述查询关键字进行查询,得到所述查询关键字对应的查询结果,所述查询结果包括摘要信息和详情页信息;
提取模块,用于基于多个提取引擎对所述详情页信息进行提取,得到多个正文文本,每个正文文本对应一个提取引擎;
筛选模块,用于基于所述摘要信息和所述多个正文文本的匹配关系,在所述多个正文文本中确定目标正文文本;
所述筛选模块包括:
哈希值计算单元,用于计算所述摘要信息的摘要哈希值,以及对应每一个正文文本的多个正文哈希值;
海明距离确定单元,用于根据所述摘要哈希值和多个正文哈希值,确定对应每一个正文文本的多个海明距离;
目标正文文本确定单元,用于根据所述多个海明距离确定所述目标正文文本;
所述目标正文文本确定单元包括:
目标海明距离确定子单元,用于在所述多个海明距离中确定目标海明距离;
第一文本数量确定子单元,用于确定所述目标海明距离对应的正文文本的第一文本数量;
判断子单元,用于判断所述目标海明距离和所述第一文本数量是否满足预设条件;
目标正文文本确定子单元,用于如果所述目标海明距离和所述第一文本数量满足预设条件,则将所述目标海明距离对应的正文文本作为所述目标正文文本;
如果所述目标海明距离和所述第一文本数量不满足预设条件,则基于匹配规则确定所述目标正文文本。
7.一种服务器,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一项所述的网页正文的提取方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的网页正文的提取方法。
CN201911329406.3A 2019-12-20 2019-12-20 网页正文的提取方法、装置、服务器和存储介质 Active CN111061955B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911329406.3A CN111061955B (zh) 2019-12-20 2019-12-20 网页正文的提取方法、装置、服务器和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911329406.3A CN111061955B (zh) 2019-12-20 2019-12-20 网页正文的提取方法、装置、服务器和存储介质

Publications (2)

Publication Number Publication Date
CN111061955A CN111061955A (zh) 2020-04-24
CN111061955B true CN111061955B (zh) 2023-11-07

Family

ID=70301269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911329406.3A Active CN111061955B (zh) 2019-12-20 2019-12-20 网页正文的提取方法、装置、服务器和存储介质

Country Status (1)

Country Link
CN (1) CN111061955B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1629838A (zh) * 2003-12-17 2005-06-22 国际商业机器公司 电子文档的处理、浏览以及信息提取的方法、装置及系统
CN102591971A (zh) * 2011-12-31 2012-07-18 北京百度网讯科技有限公司 一种网页信息提取的方法和设备
CN107153716A (zh) * 2017-06-06 2017-09-12 百度在线网络技术(北京)有限公司 网页内容提取方法和装置
CN108255895A (zh) * 2016-12-29 2018-07-06 孙翔 一种使用上下文环境规则的网页数据获取方法
CN109614625A (zh) * 2018-12-17 2019-04-12 北京百度网讯科技有限公司 标题正文相关度的确定方法、装置、设备及存储介质
CN109670100A (zh) * 2018-12-21 2019-04-23 第四范式(北京)技术有限公司 一种页面数据抓取方法及装置
CN109902220A (zh) * 2019-02-27 2019-06-18 腾讯科技(深圳)有限公司 网页信息获取方法、装置和计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1629838A (zh) * 2003-12-17 2005-06-22 国际商业机器公司 电子文档的处理、浏览以及信息提取的方法、装置及系统
CN102591971A (zh) * 2011-12-31 2012-07-18 北京百度网讯科技有限公司 一种网页信息提取的方法和设备
CN108255895A (zh) * 2016-12-29 2018-07-06 孙翔 一种使用上下文环境规则的网页数据获取方法
CN107153716A (zh) * 2017-06-06 2017-09-12 百度在线网络技术(北京)有限公司 网页内容提取方法和装置
CN109614625A (zh) * 2018-12-17 2019-04-12 北京百度网讯科技有限公司 标题正文相关度的确定方法、装置、设备及存储介质
CN109670100A (zh) * 2018-12-21 2019-04-23 第四范式(北京)技术有限公司 一种页面数据抓取方法及装置
CN109902220A (zh) * 2019-02-27 2019-06-18 腾讯科技(深圳)有限公司 网页信息获取方法、装置和计算机可读存储介质

Also Published As

Publication number Publication date
CN111061955A (zh) 2020-04-24

Similar Documents

Publication Publication Date Title
CN107992596B (zh) 一种文本聚类方法、装置、服务器和存储介质
CN110362372B (zh) 页面转译方法、装置、介质及电子设备
CN107992585B (zh) 通用标签挖掘方法、装置、服务器及介质
CN108572990B (zh) 信息推送方法和装置
CN108846091B (zh) 资讯推荐方法、装置及设备
CN109474847B (zh) 基于视频弹幕内容的搜索方法、装置、设备及存储介质
US20240143904A1 (en) Human-Computer Interaction Method And Apparatus Thereof
US20140236941A1 (en) Discovery engine
CN111459977B (zh) 自然语言查询的转换
WO2015117560A1 (en) Web page recognizing method and apparatus
CN107861948B (zh) 一种标签提取方法、装置、设备和介质
CN111597800B (zh) 同义句的获取方法及装置、设备及存储介质
CN109600681B (zh) 字幕显示方法、装置、终端及存储介质
CN110430448B (zh) 一种弹幕处理方法、装置及电子设备
WO2019071907A1 (zh) 基于操作页面识别帮助信息的方法及应用服务器
US20170293683A1 (en) Method and system for providing contextual information
CN111061955B (zh) 网页正文的提取方法、装置、服务器和存储介质
US8365064B2 (en) Hyperlinking web content
WO2020073493A1 (zh) Sql注入漏洞检测方法、装置、设备及可读存储介质
US8892596B1 (en) Identifying related documents based on links in documents
WO2019231635A1 (en) Method and apparatus for generating digest for broadcasting
CN113807416B (zh) 一种模型训练方法、装置、电子设备以及存储介质
CN111666522A (zh) 信息处理方法、装置、设备和存储介质
CN112016017A (zh) 确定特征数据的方法和装置
CN111400342A (zh) 数据库更新方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant