CN103186618A

CN103186618A - 正确数据的获取方法和装置

Info

Publication number: CN103186618A
Application number: CN2011104574158A
Authority: CN
Inventors: 张程
Original assignee: Beijing Feinno Communication Technology Co Ltd
Current assignee: Beijing Feinno Communication Technology Co Ltd
Priority date: 2011-12-30
Filing date: 2011-12-30
Publication date: 2013-07-03
Anticipated expiration: 2031-12-30
Also published as: CN103186618B

Abstract

本发明公开了一种正确数据的获取方法和装置，能够通过对数据的搜索和对搜索结果的统计得到正确的数据。本发明实施例提供的正确数据的获取方法包括：根据获取到的数据源建立索引数据库；接收用户的搜索请求，所述搜索请求中携带至少两个关键词，所述关键词属于同一数据的候选项；在索引数据库中分别搜索所述关键词，并统计与关键词所匹配的数据的搜索结果数目；比较所述搜索结果数目，将具有最大搜索结果数目的关键字作为获取到的正确的数据。

Description

正确数据的获取方法和装置

技术领域

本发明涉及数据处理技术领域，特别涉及一种正确数据的获取方法和装置。

背景技术

数据处理包括对数据的采集、存储、检索、加工、变换和传输等操作。数据的形式可以是数字、文字、图形或声音等。数据经过解释并赋予一定的意义之后，便成为信息。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据，即正确的数据。

例如，对于同一个数据，由于数据传输中的差错等原因，用户所得到的内容可能会有多个版本，则需要从这多个版本中确定出一个正确的版本，得到正确的数据。然而，对如何确定数据的正确性，目前还没有提出较合适的处理方案。

发明内容

本发明提供的一种正确数据的获取方法和装置，以解决现有无法确定数据正确性的问题。

为达到上述目的，本发明实施例采用了如下技术方案：

本发明实施例提供了一种正确数据的获取方法，根据获取到的数据源建立索引数据库，该方法包括：

接收用户的搜索请求，所述搜索请求中携带至少两个关键词，所述关键词属于同一数据的候选项；

在索引数据库中分别搜索所述关键词，并统计与关键词所匹配的数据的搜索结果数目；

比较所述搜索结果数目，将具有最大搜索结果数目的关键字作为获取到的正确的数据。

本发明实施例还提供了一种正确数据的获取装置，该装置包括

数据库建立单元，用于根据获取到的数据源建立索引数据库；

搜索请求接收单元，用于接收用户的搜索请求，所述搜索请求中携带至少两个关键词，所述关键词属于同一数据的候选项；

搜索统计单元，用于在索引数据库中搜索分别所述关键词，并统计与关键词所匹配的数据的搜索结果数目；

比较确认单元，用于比较所述搜索结果数目，将具有最大搜索结果数目的关键字作为获取到的正确的数据。

本发明实施例的有益效果是：

本发明实施例通过对数据使用和传输的原理进行分析，发现了一种数据处理的规律，该规律为数据的交互是建立在一套规范、统一的原则上且绝大部分所使用的数据都符合相同原则，从而通过对数据的搜索和对搜索结果的统计能够得到正确的数据。

进一步的，本方案能够直接利用互联网上的网页信息生成所需的索引数据库，能够快速有效地建立起具有一定规模的索引数据库，保证了正确获取数据的实现。

附图说明

图1为本发明实施例一提供的一种正确数据的获取方法流程示意图；

图2为本发明实施例二提供的一种正确数据的获取装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

参见图1，为本发明实施例一提供的一种正确数据的获取方法，具体如下：

11：根据获取到的数据源建立索引数据库。

进一步的，本实施例中的所述数据源是利用互联网中的网页数据得到的。将互联网中的各种资源纳入索引数据库，保证数据库的规模并便于数据库的建立。

具体的，本实施例采用一种网页抓取技术进行网页的自动收集，从而获得上述数据源。在抓取开始时，先选取一个初始网页，作为当前网页。将初始网页的数据存储至数据源中，并检测出初始网页上的所有统一资源定位符(URL)，访问所述URL所对应网页(如第一网页至第三网页)并将该网页的数据存储至数据源中。下一次抓取时，将第一网页至第三网页都作为当前网页，分别检测出当前网页上的所有URL，访问所述URL所对应网页并将该网页的数据存储至数据源中。

即本实施例提供的网页收集方案能自动访问互联网，并沿着当前网页中的所有URL爬到其它网页，抓取到这些网页并保存这些网页的数据。重复上述抓取过程，把爬过的所有网页的数据收集到数据源中。

在一次网页收集操作结束，获取到数据源之后，本实施例还能够在后续对所获取的数据源进行更新，更新的具体操作包括：

获取当前网页的更新标签信息，所述更新标签信息指示网页的更新时间。例如，在执行网页抓取之前，向服务器发送超文本传输协议(HTTP)请求，服务器返回HTTP响应，该HTTP响应中包括网页的更新标签信息，从而获知网页的更新时间。

根据所述更新标签信息判断当前网页中的数据是否为新数据，例如：若更新标签信息指示的网页的更新时间为t1，上一次数据源获取或更新过程的完成时间为t2，t1在t2之后时，表明当前网页中的数据为新数据，t1在t2之前时，表明当前网页中的数据已经被抓取过了，无需重复抓取。

在当前网页中的数据是新数据时，抓取当前网页的数据存储至数据源中，检测所述当前网页上的所有URL，访问并抓取所述URL所对应网页并将该网页的数据存储至数据源中，以及，将所述URL所对应的网页设置为当前网页。

在收集到网页数据之后，本实施例还对网页数据进行处理，以加快数据搜索的速度并提高搜索结果的准确度。例如，对收集到的网页数据进行解析，剔除数据中的控制信息以及格式信息等与搜索无关的数据，还可以对网页数据中的冗余信息(如停用词等)进行剔除，保留与搜索相关的网页内容数据和数据编码类型等，将这些与搜索相关的数据作为索引数据，由索引数据建立索引数据库。

12：接收用户的搜索请求，所述搜索请求中携带至少两个关键词，所述关键词属于同一数据的候选项。

上述关键词可以为一个词语，或者由多个词语组成的一段文本。可以理解，所述关键词也可以为用以标识图像或图形的信息。

本实施例中采用在多个候选项(关键词)中确认所需的正确信息的方案。例如，一个示例中搜索请求中可以携带两个关键词，“mathematics”和“mathmatics”，这两个关键词都属于“数学”的正确英文拼写的候选项。

13：在索引数据库中分别搜索所述关键词，并统计与关键词所匹配的数据的搜索结果数目。

对上述示例，统计索引数据库中与关键词“mathematics”相匹配(或相一致)的搜索结果的数目，并统计索引数据库中与关键词“mathmatics”相匹配(或相一致)的搜索结果的数目，参见下表1，显示所得到的一种统计结果。

表1

关键词	mathematics	mathmatics
			搜索结果数目	108,000,000	600,000

14：比较所述搜索结果数目，将具有最大搜索结果数目的关键字作为获取到的正确的数据。

上述示例中，关键词“mathematics”的搜索结果数目大于关键词“mathmatics”的搜索结果数目，确定关键词“mathematics”为所得到的正确的数据，即为“数学”的正确英文拼写。

由上述可见，本方案通过利用“正确数据的使用概率总是多于错误数据使用概率”的原则，能够得到正确的数据。

本发明实施例二提供了一种正确数据的获取装置，参见图2，所述装置包括：

数据库建立单元21，用于根据获取到的数据源建立索引数据库；

搜索请求接收单元22，用于接收用户的搜索请求，所述搜索请求中携带至少两个关键词，所述关键词属于同一数据的候选项；

搜索统计单元23，用于在索引数据库中搜索分别所述关键词，并统计与关键词所匹配的数据的搜索结果数目；

比较确认单元24，用于比较所述搜索结果数目，将具有最大搜索结果数目的关键字作为获取到的正确的数据。

进一步的，所述数据库建立单元21所使用的数据源是利用互联网中的网页数据得到的。

进一步的，所述数据库建立单元21包括数据存储模块和数据抓取模块。

所述数据存储模块，用于抓取互联网上的当前网页的数据存储至数据源中；

所述数据抓取模块，用于检测所述当前网页上的所有统一资源定位符URL，访问并抓取所述URL所对应网页。

所述数据存储模块，还用于将所述数据抓取模块所访问的网页的数据存储至数据源中，将所述URL所对应的网页设置为当前网页。

所述数据库建立单元还包括数据源更新模块，用于获取当前网页的更新标签信息，所述更新标签信息指示网页的更新时间；根据所述更新标签信息判断当前网页中的数据是否为新数据，若否，不再抓取当前网页中的数据，若是，抓取当前网页的数据存储至数据源中，检测所述当前网页上的所有URL，访问并抓取所述URL所对应网页并将该网页的数据存储至数据源中，以及，将所述URL所对应的网页设置为当前网页。

进一步的，所述数据库建立单元21，具体用于对数据源中存储的网页数据进行解析，提取出索引数据，并利用该索引数据建立索引数据库，所述索引数据包括网页内容数据和数据编码类型。

本发明实施例二的装置中各单元的具体工作方式可以参见本发明实施例的方法实施例中的相关内容。

并且，本方案能够直接利用互联网上的网页信息生成所需的索引数据库，能够快速有效地建立起具有一定规模的索引数据库，保证了正确获取数据的实现。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种正确数据的获取方法，其特征在于，根据获取到的数据源建立索引数据库，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，

所述数据源是利用互联网中的网页数据得到的。

3.根据权利要求2所述的方法，其特征在于，通过如下方式获取所述数据源：

抓取互联网上的当前网页的数据存储至数据源中；

检测所述当前网页上的所有统一资源定位符URL，访问并抓取所述URL所对应网页并将该网页的数据存储至数据源中；将所述URL所对应的网页设置为当前网页，继续执行所述抓取互联网上的当前网页的数据存储至数据源中。

4.根据权利要求3所述的方法，其特征在于，通过如下方式更新所获取到的数据源：

获取当前网页的更新标签信息，所述更新标签信息指示网页的更新时间；

根据所述更新标签信息判断当前网页中的数据是否为新数据，若否，不再抓取当前网页中的数据，若是，抓取当前网页的数据存储至数据源中，检测所述当前网页上的所有URL，访问并抓取所述URL所对应网页并将该网页的数据存储至数据源中，以及，将所述URL所对应的网页设置为当前网页。

5.根据权利要求2所述的方法，其特征在于，所述根据获取到的数据源建立索引数据库包括：

对数据源中存储的网页数据进行解析，提取出索引数据，并利用该索引数据建立索引数据库，所述索引数据包括网页内容数据和数据编码类型。

6.一种正确数据的获取装置，其特征在于，所述装置包括

7.根据权利要求6所述的装置，其特征在于，

所述数据库建立单元所使用的数据源是利用互联网中的网页数据得到的。

8.根据权利要求7所述的装置，其特征在于，所述数据库建立单元包括数据存储模块和数据抓取模块，

所述数据抓取模块，用于检测所述当前网页上的所有统一资源定位符URL，访问并抓取所述URL所对应网页；

9.根据权利要求8所述的装置，其特征在于，所述数据库建立单元还包括数据源更新模块，

所述数据源更新模块，用于获取当前网页的更新标签信息，所述更新标签信息指示网页的更新时间；根据所述更新标签信息判断当前网页中的数据是否为新数据，若否，不再抓取当前网页中的数据，若是，抓取当前网页的数据存储至数据源中，检测所述当前网页上的所有URL，访问并抓取所述URL所对应网页并将该网页的数据存储至数据源中，以及，将所述URL所对应的网页设置为当前网页。

10.根据权利要求7所述的装置，其特征在于，

所述数据库建立单元，具体用于对数据源中存储的网页数据进行解析，提取出索引数据，并利用该索引数据建立索引数据库，所述索引数据包括网页内容数据和数据编码类型。