CN111723286A

CN111723286A - 一种数据处理的方法及装置

Info

Publication number: CN111723286A
Application number: CN202010479188.8A
Authority: CN
Inventors: 文小兵
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2020-09-29

Abstract

本申请提供一种数据处理的方法及装置，所述方法包括：根据搜索关键词，爬取得到与所述搜索关键词相关的网页的数据；基于所述网页的数据和所述网页对应的搜索关键词计算得出所述网页的置信度；按照置信度由高到低的顺序展示所述网页的信息；其中，所述网页的置信度用于表示网页与搜索关键词的匹配度。上述技术方案可以为用户推荐更加精准的网页信息。

Description

一种数据处理的方法及装置

技术领域

本发明涉及计算机领域，尤其涉及数据处理处理的方法及装置。

背景技术

随着互联网创新和大数据时代的日益更新，爬虫需求呈爆炸式增长。目但是，为用户推荐的网页通常不够精准，用户往往还需要在推荐的网页中再次查找，甚至差不到自己需要的信息，因此体验度较差。

发明内容

本申请所要解决的技术是提供一种数据方法及装置，可以为用户推荐更加精准的网页信息。

为了解决上述技术问题，本申请提供一种数据处理方法，包括：

根据搜索关键词，爬取得到与所述搜索关键词相关的网页的数据；

基于所述网页的数据和所述网页对应的搜索关键词计算得出所述网页的置信度；

按照置信度由高到低的顺序展示所述网页的信息；

其中，所述网页的置信度用于表示网页与搜索关键词的匹配度。

在一种示例性实例中，基于所述网页的数据和所述网页对应的搜索关键词计算得出所述网页的置信度，包括：

基于所述网页的文本，使用文本排序算法计算得出所述网页中最重要的N个词汇，N为大于或者等于1的正整数；

对所述网页的文本和所述搜索关键词进行模式匹配，从匹配到的搜索关键词中选出文档词频值最大的M个词汇，M为大于或者等于1的正整数；

根据所述匹配到的搜索关键词的文档词频值，以及所述N个词汇和所述M个词汇中相同词汇的数量，计算得出所述网页的置信度。

在一种示例性实例中，所述根据所述匹配到的搜索关键词的文档词频值，以及所述N个词汇和所述M个词汇中相同词汇的数量，计算得出所述网页的置信度，包括：

将权重乘以所述M个词汇的文档词频值之和或者乘以所述匹配到的所有搜索关键词的文档词频值之和，作为所述网页的置信度；

其中，所述权重为根据所述N个词汇和所述M个词汇中相同词汇的数量得出。

在一种示例性实例中，所述按照置信度由高到低的顺序展示所述网页的信息之后，所述方法还包括：

接收用户对任一网页的评分信息；

根据所述评分信息和置信度对所述网页重新排序。

在一种示例性实例中，所述爬取得到与所述搜索关键词相关的网页的数据包括以下内容中的一项或多项：网页所属网站的名称、地址和截图；

网页的信息包括以下内容中的一项或多项：网页所属网站的名称、地址、截图、网页对应的置信度。

在一种示例性实例中，所述根据搜索关键词，爬取得到与所述搜索关键词相关的网页的数据包括：

将所述搜索关键词组装成统一资源定位符URL信息；

将所述URL信息发送给搜索引擎，通过搜索引擎爬取得到与所述关键词相关的网页的待处理数据；其中，所述待处理数据中包括爬取到的与搜索键词对应的网页的地址信息；

删除所述待处理数据中地址信息重复的数据，将剩余的待处理数据进行格式化处理后作为有效数据；

根据所述有效数据得出所述搜索关键词相关的网页的数据。

在一种示例性实例中，所述根据搜索关键词，爬取得到与所搜索关键词相关的网页的待处理数据之前，所述方法还包括：

获取预定路径上的配置文件，所述配置文件中包含用户配置的搜索关键词；

自动加载所述配置文件中携带的搜索关键词。

在一种示例性实例中，所述配置文件中的搜索关键词分为多组，执行所述数据处理方法的系统运行多个并行的线程，每一线程根据一组搜索关键词爬取得到与所述搜索关键词相关的网页的数据，并基于所述网页的数据和该组搜索关键词计算得出所述网页的置信度；然后，按照置信度由高到低的顺序分别展示每一线程抓取得到的所述网页的信息；或者将多个所述线程抓取得到的所述网页的置信度进行综合排序，按照置信度由高到低的顺序展示多个所述线程抓取得到的所述网页的信息。

本申请还提供一种数据处理装置，包括：存储器和处理器；

所述存储器，用于保存用于数据处理的程序；

所述处理器，用于读取所述用于数据处理的程序，执行前述任一所述的方法。

本申请还提供一种计算机存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行前述任一所述的方法。

附图说明

附图用来提供对本申请技术方案的理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1是本发明实施例一的数据处理方法的流程图；

图2是本发明实施例一的数据处理装置的结构示意图；

图3是示例一的数据处理方法的流程图。

具体实施方式

本申请描述了多个实施例，但是该描述是示例性的，而不是限制性的，并且对于本领域的普通技术人员来说显而易见的是，在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合，并在具体实施方式中进行了讨论，但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外，任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用，或可以替代任何其它实施例中的任何其他特征或元件。

本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合，以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合，以形成另一个由权利要求限定的独特的发明方案。因此，应当理解，在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此，除了根据所附权利要求及其等同替换所做的限制以外，实施例不受其它限制。此外，可以在所附权利要求的保护范围内进行各种修改和改变。

此外，在描述具有代表性的实施例时，说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而，在该方法或过程不依赖于本文所述步骤的特定顺序的程度上，该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的，其它的步骤顺序也是可能的。因此，说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外，针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤，本领域技术人员可以容易地理解，这些顺序可以变化，并且仍然保持在本申请实施例的精神和范围内。

实施例一

如图1所示，本实施例提供一种数据处理方法，包括：

步骤S101、根据搜索关键词，爬取得到与所述搜索关键词相关的网页的数据；

步骤S102、基于所述网页的数据和所述网页对应的搜索关键词计算得出所述网页的置信度；

步骤S103、按照置信度由高到低的顺序展示所述网页的信息；

上述技术方案可以按照网页与搜索关键词的匹配度显示网页，从而可以提高推荐信息的精准度。

上述技术方案通过计算网页的置信度，可以提高用户获取有效信息的效率。

本实施例中，可以将权重乘以M个词汇的文档词频值之和，将乘积作为该网页的置信度。也可以将权重乘以匹配到的所有搜索关键词的文档词频值之和，将乘积作为该网页的置信度。

权重可以根据N个词汇和所述M个词汇中相同词汇的数量得出。例如，可以将N个词汇和所述M个词汇中相同词汇的数量作为权重；还可以将N个词汇和所述M个词汇中相同词汇的数量，通过设定的运算得出，例如，相同词汇的数量为0，则权重设置为1。

接收用户对任一网页的评分信息；

根据所述评分信息和置信度对所述网页重新排序。

本实施例中，当用户对网页进行评分之后，可以将评分和置信度进行加权运算(例如加权平均等)，然后将得到的数值作为重新排序的依据。

本实施例中，用户可以对所有页面进行评分，也可以对部分页面进行评分。

本实施例中，用户在对网页进行评分之后，当点击刷新时，可以根据评分和置信度对网页重新排序，然后按照重新排序的页面顺序显示网页。或者，用户无需点击刷新，当用户在对网页进行评分之后，就根据评分和置信度对网页重新排序，然后按照重新排序的页面顺序显示网页。

本实施例中，在展示网页信息时，可以展示网页的截图，这样无需点击网页链接，就可以通过图片预览查看网页的内容。

将所述搜索关键词组装成统一资源定位符URL信息；

根据所述有效数据得出所述搜索关键词相关的网页的数据。

上述技术方案通过对爬取到的待处理网页数据进行筛选，可以去除重复多余的数据，使得推荐的网页更加精准。

自动加载所述配置文件中携带的搜索关键词。

本实施例中，用户可以在配置文件中一次性地输入多组关键词，然后一次性地批量爬取得到相应的网页的信息，而无需多次输入关键词，分批爬取网页的信息，从而提高了信息爬取的效率。

如图2所示，本实施例还提供一种数据处理装置，包括：存储器10和处理器11；

所述存储器10，用于保存用于数据处理的程序；

所述处理器11，用于读取执行所述用于数据处理的程序，执行如下操作：

按照置信度由高到低的顺序展示所述网页的信息。

在一种示例性实例中，所述处理器11，用于读取执行所述用于数据处理的程序，还执行如下操作：

所述按照置信度由高到低的顺序展示所述网页的信息之后，接收用户对任一网页的评分信息；

根据所述评分信息和置信度对所述网页重新排序。

将所述搜索关键词组装成统一资源定位符URL信息；

根据所述有效数据得出所述搜索关键词相关的网页的数据。

所述根据搜索关键词，爬取得到与所搜索关键词相关的网页的待处理数据之前，获取预定路径上的配置文件，所述配置文件中包含用户配置的搜索关键词；

自动加载所述配置文件中携带的搜索关键词。

本实施例还提供一种计算机存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行前述任一所述的方法。

示例一

如图3所示，下面通过示例进一步说明本申请的数据处理的方法，包括：

步骤S201、用户在配置文件中输入搜索关键词；

步骤S202、获取配置文件，加载搜索关键词；

本示例中，配置文件可以保存在设定路径上，配置文件可以是文本文件。

步骤S203、组装关键词，拼接成URL格式的信息，发送到搜索引擎；

可以将搜索关键词组装成搜索引擎可识别的搜索信息，例如，可以拼装成URL(Uniform Resource Locator，统一资源定位符格式)的信息，然后发送至搜索引擎。下面以将URL格式的信息发送至百度为例进行说明。

在其它示例中还可以通过其它的搜索引擎获取数据。

步骤S204、获取百度返回的待处理数据；

返回的待处理数据可以包括网页的地址信息。

步骤S205、将待处理数据通过流处理平台存入数据库；

本示例中，流处理平台可以使用Kafka(由Apache软件基金会开发的一个开源流处理平台)，然后存入mySQL(关系型数据库管理系统)。下面以Kafka和mySQL为例进行说明。

在其它示例中，还可以使用其它的流处理平台和数据库。

通过流处理平台可以减少数据处理的耦合度，减少开发成本。

步骤S206、对待处理数据进行筛选得出有效数据；

百度返回的爬取结果为html格式数据，对该html格式数据进行转码，得到utf-8格式的数据，然后再去除其中网页地址重复的数据，还可以去除无用代码段和无用的页面内容，将剩余的待处理数据进行数据格式化处理，可以得到有效数据。

步骤S207、根据有效数据获取与搜索关键词相关的网页的数据；

将有效数据中包含了网页地址发送至百度获取与搜索关键词相关的网页的数据。

与搜索关键词相关的网页的数据可以包括以下内容中的一项或者多项：网页所属网站的名字、地址和截图

步骤S208、将获取到的网页的数据通过Kafka存入数据库；

步骤S209、计算每个网页的置信度；

下面以计算任一网页的置信度为例进行说明。可以包括如下内容：

1、可以基于该网页的文本，使用文本排序算法计算得出该网页中最重要的N个词汇，假设N为10；

例如，本示例可以通过TextRank算法计算，根据文本中词汇之间的联系，推算出词的重要程度，得到每个词汇在文章中的重要程度，取最重要的前10个词汇(假设将这10个词汇作为第一集合)，作为该文本的关键词。

需要说明的是，在其它示例中，N还可以设定为其它数值，此处仅为举例。

2、对该网页的文本和搜索关键词进行模式匹配，从匹配到的搜索关键词中选出文档词频值最大的M个词汇，假设M为10；

例如，本示例可以通过字符串匹配算法，如AC算法(Aho–Corasick算法)，计算页面中的文本信息与搜索关键词匹配的词汇，然后从这些词汇中选取出现次数最多的前10个词汇(假设将这10个词汇作为第二集合)。

需要说明的是，在其它示例中，M还可以设定为其它数值，此处仅为举例。

3、将前述得出的最重要的前10个词汇(第一集合)与出现次数最多的前10个词汇(第二集合)进行比对，将第一集合与第二集合中所有相同的词汇最为最大公共子集，根据该最大公共子集中词汇的数量得出权重。例如最大公共子集的词汇数量为0，则权重可以设定为1；在其它示例中，还可以将最大公共子集的词汇总数量通过其它计算方法得出权重。

4、将权重乘以第二集合中10个词汇的文档词频值之和，将乘积作为该网页的置信度；

或者将权重乘以匹配到的所有搜索关键词的文档词频值之和，将乘积作为该网页的置信度。

本示例将所有搜索关键词看做一个整体，从而得到搜索关键词在文章中的重要程度。首先，用所有搜索关键词的总词频，作为文章中搜索关键词的TF值，然后将权重与该TF值的乘积作为该网页的置信度，得到搜索关键词在文章中的重要程度。

对于网页置信度的计算，如果只用词频的话，可能会出现误判。例如一片介绍“XX日报”的消息，可能里面出现大量的“日”，通过AC算法，就会得到大量的“日”，这时候如果结合TexkRank结果进行筛选，就会把“XX日报”当作一个关键词，从而降低了“日”的重要性。

本示例中，置信度计算的是所有搜索关键词在文本中的重要程度的总和，用来表明文章的重要程度，从而体现网页与搜索关键词的匹配度。当文章的重要程度大于设定阈值时，认为该文章是与搜索关键词的匹配度高。

本示例中，可以对置信度进行优化，将置信度的数值压缩到【0,1】，从而提高直观性。

此外，本示例中，可以根据页面中的文本数据计算网页的置信度。在其它示例中，还可以根据页面中的文本数据、表头、页面结构、页面内的图片、视频等信息的一种或者多种，计算网页的置信度，然后对多个维度的计算结果进行加权求和，将加权求和的结果作为网页的置信度，从而提高精准度。

步骤S210、按照置信度由高到低的顺序展示所述网页的信息；

步骤S211、接收用户对任一网页的评分信息；

步骤S212、根据评分信息和网页的置信度对网页进行重新排序；

步骤S213、显示重新排序后的网页。

需要说明的是，在其它示例中，可以是用户进行刷新页面时，重新排序然后显示重新排序后的页面，或者重新排序但是不显示重新排序后的网页。

通过上述方法计算得出与搜索关键词相关的网页的置信度，并按照置信度由高到低的顺序展示网页的信息，可以有效提高推荐信息的精准度。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且包括任何信息递送介质。

Claims

1.一种数据处理方法，包括：

按照置信度由高到低的顺序展示所述网页的信息；

2.如权利要求1所述的方法，其特征在于，基于所述网页的数据和所述网页对应的搜索关键词计算得出所述网页的置信度，包括：

3.如权利要求2所述的方法，其特征在于，所述根据所述匹配到的搜索关键词的文档词频值，以及所述N个词汇和所述M个词汇中相同词汇的数量，计算得出所述网页的置信度，包括：

4.如权利要求1所述的方法，其特征在于，所述按照置信度由高到低的顺序展示所述网页的信息之后，所述方法还包括：

接收用户对任一网页的评分信息；

根据所述评分信息和置信度对所述网页重新排序。

5.如权利要求1所述的方法，其特征在于：

所述爬取得到与所述搜索关键词相关的网页的数据包括以下内容中的一项或多项：网页所属网站的名称、地址和截图；

6.如权利要求5所述的方法，其特征在于，所述根据搜索关键词，爬取得到与所述搜索关键词相关的网页的数据包括：

将所述搜索关键词组装成统一资源定位符URL信息；

根据所述有效数据得出所述搜索关键词相关的网页的数据。

7.如权利要求1所述的方法，其特征在于，所述根据搜索关键词，爬取得到与所搜索关键词相关的网页的待处理数据之前，所述方法还包括：

自动加载所述配置文件中携带的搜索关键词。

8.如权利要求1所述的方法，其特征在于：

所述配置文件中的搜索关键词分为多组，执行所述数据处理方法的系统运行多个并行的线程，每一线程根据一组搜索关键词爬取得到与所述搜索关键词相关的网页的数据，并基于所述网页的数据和该组搜索关键词计算得出所述网页的置信度；然后，按照置信度由高到低的顺序分别展示每一线程抓取得到的所述网页的信息；或者将多个所述线程抓取得到的所述网页的置信度进行综合排序，按照置信度由高到低的顺序展示多个所述线程抓取得到的所述网页的信息。

9.一种数据处理装置，包括：存储器和处理器；其特征在于：

所述存储器，用于保存用于数据处理的程序；

所述处理器，用于读取所述用于数据处理的程序，执行如权利要求1至8任一所述的方法。

10.一种计算机存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至8中任一所述的方法。