CN103186618B - 正确数据的获取方法和装置 - Google Patents

正确数据的获取方法和装置 Download PDF

Info

Publication number
CN103186618B
CN103186618B CN201110457415.8A CN201110457415A CN103186618B CN 103186618 B CN103186618 B CN 103186618B CN 201110457415 A CN201110457415 A CN 201110457415A CN 103186618 B CN103186618 B CN 103186618B
Authority
CN
China
Prior art keywords
data
web page
current web
key word
data source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110457415.8A
Other languages
English (en)
Other versions
CN103186618A (zh
Inventor
张程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Feinno Communication Technology Co Ltd
Original Assignee
Beijing Feinno Communication Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Feinno Communication Technology Co Ltd filed Critical Beijing Feinno Communication Technology Co Ltd
Priority to CN201110457415.8A priority Critical patent/CN103186618B/zh
Publication of CN103186618A publication Critical patent/CN103186618A/zh
Application granted granted Critical
Publication of CN103186618B publication Critical patent/CN103186618B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种正确数据的获取方法和装置,能够通过对数据的搜索和对搜索结果的统计得到正确的数据。本发明实施例提供的正确数据的获取方法包括:根据获取到的数据源建立索引数据库;接收用户的搜索请求,所述搜索请求中携带至少两个关键词,所述关键词属于同一数据的候选项;在索引数据库中分别搜索所述关键词,并统计与关键词所匹配的数据的搜索结果数目;比较所述搜索结果数目,将具有最大搜索结果数目的关键字作为获取到的正确的数据。

Description

正确数据的获取方法和装置
技术领域
本发明涉及数据处理技术领域,特别涉及一种正确数据的获取方法和装置。
背景技术
数据处理包括对数据的采集、存储、检索、加工、变换和传输等操作。数据的形式可以是数字、文字、图形或声音等。数据经过解释并赋予一定的意义之后,便成为信息。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据,即正确的数据。
例如,对于同一个数据,由于数据传输中的差错等原因,用户所得到的内容可能会有多个版本,则需要从这多个版本中确定出一个正确的版本,得到正确的数据。然而,对如何确定数据的正确性,目前还没有提出较合适的处理方案。
发明内容
本发明提供的一种正确数据的获取方法和装置,以解决现有无法确定数据正确性的问题。
为达到上述目的,本发明实施例采用了如下技术方案:
本发明实施例提供了一种正确数据的获取方法,根据获取到的数据源建立索引数据库,该方法包括:
接收用户的搜索请求,所述搜索请求中携带至少两个关键词,所述关键词属于同一数据的候选项;
在索引数据库中分别搜索所述关键词,并统计与关键词所匹配的数据的搜索结果数目;
比较所述搜索结果数目,将具有最大搜索结果数目的关键字作为获取到的正确的数据。
本发明实施例还提供了一种正确数据的获取装置,该装置包括
数据库建立单元,用于根据获取到的数据源建立索引数据库;
搜索请求接收单元,用于接收用户的搜索请求,所述搜索请求中携带至少两个关键词,所述关键词属于同一数据的候选项;
搜索统计单元,用于在索引数据库中搜索分别所述关键词,并统计与关键词所匹配的数据的搜索结果数目;
比较确认单元,用于比较所述搜索结果数目,将具有最大搜索结果数目的关键字作为获取到的正确的数据。
本发明实施例的有益效果是:
本发明实施例通过对数据使用和传输的原理进行分析,发现了一种数据处理的规律,该规律为数据的交互是建立在一套规范、统一的原则上且绝大部分所使用的数据都符合相同原则,从而通过对数据的搜索和对搜索结果的统计能够得到正确的数据。
进一步的,本方案能够直接利用互联网上的网页信息生成所需的索引数据库,能够快速有效地建立起具有一定规模的索引数据库,保证了正确获取数据的实现。
附图说明
图1为本发明实施例一提供的一种正确数据的获取方法流程示意图;
图2为本发明实施例二提供的一种正确数据的获取装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
参见图1,为本发明实施例一提供的一种正确数据的获取方法,具体如下:
11:根据获取到的数据源建立索引数据库。
进一步的,本实施例中的所述数据源是利用互联网中的网页数据得到的。将互联网中的各种资源纳入索引数据库,保证数据库的规模并便于数据库的建立。
具体的,本实施例采用一种网页抓取技术进行网页的自动收集,从而获得上述数据源。在抓取开始时,先选取一个初始网页,作为当前网页。将初始网页的数据存储至数据源中,并检测出初始网页上的所有统一资源定位符(URL),访问所述URL所对应网页(如第一网页至第三网页)并将该网页的数据存储至数据源中。下一次抓取时,将第一网页至第三网页都作为当前网页,分别检测出当前网页上的所有URL,访问所述URL所对应网页并将该网页的数据存储至数据源中。
即本实施例提供的网页收集方案能自动访问互联网,并沿着当前网页中的所有URL爬到其它网页,抓取到这些网页并保存这些网页的数据。重复上述抓取过程,把爬过的所有网页的数据收集到数据源中。
在一次网页收集操作结束,获取到数据源之后,本实施例还能够在后续对所获取的数据源进行更新,更新的具体操作包括:
获取当前网页的更新标签信息,所述更新标签信息指示网页的更新时间。例如,在执行网页抓取之前,向服务器发送超文本传输协议(HTTP)请求,服务器返回HTTP响应,该HTTP响应中包括网页的更新标签信息,从而获知网页的更新时间。
根据所述更新标签信息判断当前网页中的数据是否为新数据,例如:若更新标签信息指示的网页的更新时间为t1,上一次数据源获取或更新过程的完成时间为t2,t1在t2之后时,表明当前网页中的数据为新数据,t1在t2之前时,表明当前网页中的数据已经被抓取过了,无需重复抓取。
在当前网页中的数据是新数据时,抓取当前网页的数据存储至数据源中,检测所述当前网页上的所有URL,访问并抓取所述URL所对应网页并将该网页的数据存储至数据源中,以及,将所述URL所对应的网页设置为当前网页。
在收集到网页数据之后,本实施例还对网页数据进行处理,以加快数据搜索的速度并提高搜索结果的准确度。例如,对收集到的网页数据进行解析,剔除数据中的控制信息以及格式信息等与搜索无关的数据,还可以对网页数据中的冗余信息(如停用词等)进行剔除,保留与搜索相关的网页内容数据和数据编码类型等,将这些与搜索相关的数据作为索引数据,由索引数据建立索引数据库。
12:接收用户的搜索请求,所述搜索请求中携带至少两个关键词,所述关键词属于同一数据的候选项。
上述关键词可以为一个词语,或者由多个词语组成的一段文本。可以理解,所述关键词也可以为用以标识图像或图形的信息。
本实施例中采用在多个候选项(关键词)中确认所需的正确信息的方案。例如,一个示例中搜索请求中可以携带两个关键词,“mathematics”和“mathmatics”,这两个关键词都属于“数学”的正确英文拼写的候选项。
13:在索引数据库中分别搜索所述关键词,并统计与关键词所匹配的数据的搜索结果数目。
对上述示例,统计索引数据库中与关键词“mathematics”相匹配(或相一致)的搜索结果的数目,并统计索引数据库中与关键词“mathmatics”相匹配(或相一致)的搜索结果的数目,参见下表1,显示所得到的一种统计结果。
表1
关键词 mathematics mathmatics
搜索结果数目 108,000,000 600,000
14:比较所述搜索结果数目,将具有最大搜索结果数目的关键字作为获取到的正确的数据。
上述示例中,关键词“mathematics”的搜索结果数目大于关键词“mathmatics”的搜索结果数目,确定关键词“mathematics”为所得到的正确的数据,即为“数学”的正确英文拼写。
由上述可见,本方案通过利用“正确数据的使用概率总是多于错误数据使用概率”的原则,能够得到正确的数据。
本发明实施例二提供了一种正确数据的获取装置,参见图2,所述装置包括:
数据库建立单元21,用于根据获取到的数据源建立索引数据库;
搜索请求接收单元22,用于接收用户的搜索请求,所述搜索请求中携带至少两个关键词,所述关键词属于同一数据的候选项;
搜索统计单元23,用于在索引数据库中搜索分别所述关键词,并统计与关键词所匹配的数据的搜索结果数目;
比较确认单元24,用于比较所述搜索结果数目,将具有最大搜索结果数目的关键字作为获取到的正确的数据。
进一步的,所述数据库建立单元21所使用的数据源是利用互联网中的网页数据得到的。
进一步的,所述数据库建立单元21包括数据存储模块和数据抓取模块。
所述数据存储模块,用于抓取互联网上的当前网页的数据存储至数据源中;
所述数据抓取模块,用于检测所述当前网页上的所有统一资源定位符URL,访问并抓取所述URL所对应网页。
所述数据存储模块,还用于将所述数据抓取模块所访问的网页的数据存储至数据源中,将所述URL所对应的网页设置为当前网页。
所述数据库建立单元还包括数据源更新模块,用于获取当前网页的更新标签信息,所述更新标签信息指示网页的更新时间;根据所述更新标签信息判断当前网页中的数据是否为新数据,若否,不再抓取当前网页中的数据,若是,抓取当前网页的数据存储至数据源中,检测所述当前网页上的所有URL,访问并抓取所述URL所对应网页并将该网页的数据存储至数据源中,以及,将所述URL所对应的网页设置为当前网页。
进一步的,所述数据库建立单元21,具体用于对数据源中存储的网页数据进行解析,提取出索引数据,并利用该索引数据建立索引数据库,所述索引数据包括网页内容数据和数据编码类型。
本发明实施例二的装置中各单元的具体工作方式可以参见本发明实施例的方法实施例中的相关内容。
本发明实施例通过对数据使用和传输的原理进行分析,发现了一种数据处理的规律,该规律为数据的交互是建立在一套规范、统一的原则上且绝大部分所使用的数据都符合相同原则,从而通过对数据的搜索和对搜索结果的统计能够得到正确的数据。
并且,本方案能够直接利用互联网上的网页信息生成所需的索引数据库,能够快速有效地建立起具有一定规模的索引数据库,保证了正确获取数据的实现。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种正确数据的获取方法,其特征在于,根据获取到的数据源建立索引数据库,所述方法包括:
接收用户的搜索请求,所述搜索请求中携带至少两个关键词,所述关键词属于同一数据的候选项;所述关键词包括:词语、一段文本和/或用以标识图像或图形的信息;
在索引数据库中分别搜索所述关键词,并统计与关键词所匹配的数据的搜索结果数目;
比较所述搜索结果数目,将具有最大搜索结果数目的关键词作为获取到的正确的数据。
2.根据权利要求1所述的方法,其特征在于,
所述数据源是利用互联网中的网页数据得到的。
3.根据权利要求2所述的方法,其特征在于,通过如下方式获取所述数据源:
抓取互联网上的当前网页的数据存储至数据源中;
检测所述当前网页上的所有统一资源定位符URL,访问并抓取所述URL所对应网页并将该网页的数据存储至数据源中;将所述URL所对应的网页设置为当前网页,继续执行所述抓取互联网上的当前网页的数据存储至数据源中。
4.根据权利要求3所述的方法,其特征在于,通过如下方式更新所获取到的数据源:
获取当前网页的更新标签信息,所述更新标签信息指示网页的更新时间;
根据所述更新标签信息判断当前网页中的数据是否为新数据,若否,不再抓取当前网页中的数据,若是,抓取当前网页的数据存储至数据源中,检测所述当前网页上的所有URL,访问并抓取所述URL所对应网页并将该网页的数据存储至数据源中,以及,将所述URL所对应的网页设置为当前网页。
5.根据权利要求2所述的方法,其特征在于,所述根据获取到的数据源建立索引数据库包括:
对数据源中存储的网页数据进行解析,提取出索引数据,并利用该索引数据建立索引数据库,所述索引数据包括网页内容数据和数据编码类型。
6.一种正确数据的获取装置,其特征在于,所述装置包括
数据库建立单元,用于根据获取到的数据源建立索引数据库;
搜索请求接收单元,用于接收用户的搜索请求,所述搜索请求中携带至少两个关键词,所述关键词属于同一数据的候选项;所述关键词包括:词语、一段文本和/或用以标识图像或图形的信息;
搜索统计单元,用于在索引数据库中分别搜索所述关键词,并统计与关键词所匹配的数据的搜索结果数目;
比较确认单元,用于比较所述搜索结果数目,将具有最大搜索结果数目的关键词作为获取到的正确的数据。
7.根据权利要求6所述的装置,其特征在于,
所述数据库建立单元所使用的数据源是利用互联网中的网页数据得到的。
8.根据权利要求7所述的装置,其特征在于,所述数据库建立单元包括数据存储模块和数据抓取模块,
所述数据存储模块,用于抓取互联网上的当前网页的数据存储至数据源中;
所述数据抓取模块,用于检测所述当前网页上的所有统一资源定位符URL,访问并抓取所述URL所对应网页;
所述数据存储模块,还用于将所述数据抓取模块所访问的网页的数据存储至数据源中,将所述URL所对应的网页设置为当前网页。
9.根据权利要求8所述的装置,其特征在于,所述数据库建立单元还包括数据源更新模块,
所述数据源更新模块,用于获取当前网页的更新标签信息,所述更新标签信息指示网页的更新时间;根据所述更新标签信息判断当前网页中的数据是否为新数据,若否,不再抓取当前网页中的数据,若是,抓取当前网页的数据存储至数据源中,检测所述当前网页上的所有URL,访问并抓取所述URL所对应网页并将该网页的数据存储至数据源中,以及,将所述URL所对应的网页设置为当前网页。
10.根据权利要求7所述的装置,其特征在于,
所述数据库建立单元,具体用于对数据源中存储的网页数据进行解析,提取出索引数据,并利用该索引数据建立索引数据库,所述索引数据包括网页内容数据和数据编码类型。
CN201110457415.8A 2011-12-30 2011-12-30 正确数据的获取方法和装置 Active CN103186618B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110457415.8A CN103186618B (zh) 2011-12-30 2011-12-30 正确数据的获取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110457415.8A CN103186618B (zh) 2011-12-30 2011-12-30 正确数据的获取方法和装置

Publications (2)

Publication Number Publication Date
CN103186618A CN103186618A (zh) 2013-07-03
CN103186618B true CN103186618B (zh) 2016-06-29

Family

ID=48677787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110457415.8A Active CN103186618B (zh) 2011-12-30 2011-12-30 正确数据的获取方法和装置

Country Status (1)

Country Link
CN (1) CN103186618B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1909522A (zh) * 2006-08-18 2007-02-07 北京金山软件有限公司 获取网页关键字的方法及其应用系统
CN1975729A (zh) * 2005-12-02 2007-06-06 国际商业机器公司 搜索文本中关键词的系统及其方法
CN101118556A (zh) * 2007-09-17 2008-02-06 中国科学院计算技术研究所 一种短文本的新词发现方法和系统
CN101201838A (zh) * 2007-08-21 2008-06-18 新百丽鞋业(深圳)有限公司 利用词组索引技术对基于关键词索引的搜索引擎进行改进的方法
CN101984423A (zh) * 2010-10-21 2011-03-09 百度在线网络技术(北京)有限公司 一种热搜词生成方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003228571A (ja) * 2001-11-28 2003-08-15 Kyoji Umemura 文字列の出現頻度の計数方法およびその方法を利用可能な装置
JP2006031108A (ja) * 2004-07-12 2006-02-02 Shinichiro Fujitani ウエブ上の商品・サービスの検索システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1975729A (zh) * 2005-12-02 2007-06-06 国际商业机器公司 搜索文本中关键词的系统及其方法
CN1909522A (zh) * 2006-08-18 2007-02-07 北京金山软件有限公司 获取网页关键字的方法及其应用系统
CN101201838A (zh) * 2007-08-21 2008-06-18 新百丽鞋业(深圳)有限公司 利用词组索引技术对基于关键词索引的搜索引擎进行改进的方法
CN101118556A (zh) * 2007-09-17 2008-02-06 中国科学院计算技术研究所 一种短文本的新词发现方法和系统
CN101984423A (zh) * 2010-10-21 2011-03-09 百度在线网络技术(北京)有限公司 一种热搜词生成方法及系统

Also Published As

Publication number Publication date
CN103186618A (zh) 2013-07-03

Similar Documents

Publication Publication Date Title
CN102662969B (zh) 一种基于网页结构语义的互联网信息对象定位方法
CN102054015B (zh) 使用有机物件数据模型来组织社群智能信息的系统及方法
CN102073692B (zh) 基于农业领域本体库的语义检索系统和方法
CN103049575B (zh) 一种主题自适应的学术会议搜索系统
CN103246644B (zh) 一种网络舆情信息处理方法和装置
US8868556B2 (en) Method and device for tagging a document
CN102567494B (zh) 网站分类方法及装置
KR101727139B1 (ko) 코퍼스 자동 구축 방법 및 이를 이용한 개체명 인식 방법과 장치
CN104933168B (zh) 一种网页内容自动采集方法
CN103294781A (zh) 一种用于处理页面数据的方法与设备
CN110602045A (zh) 一种基于特征融合和机器学习的恶意网页识别方法
CN102929902A (zh) 一种基于中文检索的分词方法及装置
CN103778238A (zh) 一种从维基百科半结构化数据自动构建分类树的方法
KR102107474B1 (ko) 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법
CN102779172B (zh) 一种网页中非正文文本的识别系统及方法
CN106547803B (zh) 爬取网站增量资源的方法和装置
CN105528357A (zh) 一种基于url和网页文档结构的相似性的网页内容提取方法
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
CN111158973B (zh) 一种web应用动态演化监测方法
CN103248513A (zh) 基于Office办公套件的网络信息数据采集方法及系统
Nethra et al. WEB CONTENT EXTRACTION USING HYBRID APPROACH.
JP2009042908A (ja) ニュース記事抽出装置、ニュース記事リンク特定方法およびニュース記事抽出用プログラム
CN109948015B (zh) 一种元搜索列表结果抽取方法及系统
CN103186618B (zh) 正确数据的获取方法和装置
CN102929948A (zh) 列表页识别系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: Room 810, 8 / F, 34 Haidian Street, Haidian District, Beijing 100080

Patentee after: BEIJING D-MEDIA COMMUNICATION TECHNOLOGY Co.,Ltd.

Address before: 100089 Beijing city Haidian District wanquanzhuang Road No. 28 Wanliu new building 6 storey block A room 602

Patentee before: BEIJING D-MEDIA COMMUNICATION TECHNOLOGY Co.,Ltd.

CP02 Change in the address of a patent holder