CN103186618A - 正确数据的获取方法和装置 - Google Patents
正确数据的获取方法和装置 Download PDFInfo
- Publication number
- CN103186618A CN103186618A CN2011104574158A CN201110457415A CN103186618A CN 103186618 A CN103186618 A CN 103186618A CN 2011104574158 A CN2011104574158 A CN 2011104574158A CN 201110457415 A CN201110457415 A CN 201110457415A CN 103186618 A CN103186618 A CN 103186618A
- Authority
- CN
- China
- Prior art keywords
- data
- web page
- current web
- data source
- url
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种正确数据的获取方法和装置,能够通过对数据的搜索和对搜索结果的统计得到正确的数据。本发明实施例提供的正确数据的获取方法包括:根据获取到的数据源建立索引数据库;接收用户的搜索请求,所述搜索请求中携带至少两个关键词,所述关键词属于同一数据的候选项;在索引数据库中分别搜索所述关键词,并统计与关键词所匹配的数据的搜索结果数目;比较所述搜索结果数目,将具有最大搜索结果数目的关键字作为获取到的正确的数据。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种正确数据的获取方法和装置。
背景技术
数据处理包括对数据的采集、存储、检索、加工、变换和传输等操作。数据的形式可以是数字、文字、图形或声音等。数据经过解释并赋予一定的意义之后,便成为信息。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据,即正确的数据。
例如,对于同一个数据,由于数据传输中的差错等原因,用户所得到的内容可能会有多个版本,则需要从这多个版本中确定出一个正确的版本,得到正确的数据。然而,对如何确定数据的正确性,目前还没有提出较合适的处理方案。
发明内容
本发明提供的一种正确数据的获取方法和装置,以解决现有无法确定数据正确性的问题。
为达到上述目的,本发明实施例采用了如下技术方案:
本发明实施例提供了一种正确数据的获取方法,根据获取到的数据源建立索引数据库,该方法包括:
接收用户的搜索请求,所述搜索请求中携带至少两个关键词,所述关键词属于同一数据的候选项;
在索引数据库中分别搜索所述关键词,并统计与关键词所匹配的数据的搜索结果数目;
比较所述搜索结果数目,将具有最大搜索结果数目的关键字作为获取到的正确的数据。
本发明实施例还提供了一种正确数据的获取装置,该装置包括
数据库建立单元,用于根据获取到的数据源建立索引数据库;
搜索请求接收单元,用于接收用户的搜索请求,所述搜索请求中携带至少两个关键词,所述关键词属于同一数据的候选项;
搜索统计单元,用于在索引数据库中搜索分别所述关键词,并统计与关键词所匹配的数据的搜索结果数目;
比较确认单元,用于比较所述搜索结果数目,将具有最大搜索结果数目的关键字作为获取到的正确的数据。
本发明实施例的有益效果是:
本发明实施例通过对数据使用和传输的原理进行分析,发现了一种数据处理的规律,该规律为数据的交互是建立在一套规范、统一的原则上且绝大部分所使用的数据都符合相同原则,从而通过对数据的搜索和对搜索结果的统计能够得到正确的数据。
进一步的,本方案能够直接利用互联网上的网页信息生成所需的索引数据库,能够快速有效地建立起具有一定规模的索引数据库,保证了正确获取数据的实现。
附图说明
图1为本发明实施例一提供的一种正确数据的获取方法流程示意图;
图2为本发明实施例二提供的一种正确数据的获取装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
参见图1,为本发明实施例一提供的一种正确数据的获取方法,具体如下:
11:根据获取到的数据源建立索引数据库。
进一步的,本实施例中的所述数据源是利用互联网中的网页数据得到的。将互联网中的各种资源纳入索引数据库,保证数据库的规模并便于数据库的建立。
具体的,本实施例采用一种网页抓取技术进行网页的自动收集,从而获得上述数据源。在抓取开始时,先选取一个初始网页,作为当前网页。将初始网页的数据存储至数据源中,并检测出初始网页上的所有统一资源定位符(URL),访问所述URL所对应网页(如第一网页至第三网页)并将该网页的数据存储至数据源中。下一次抓取时,将第一网页至第三网页都作为当前网页,分别检测出当前网页上的所有URL,访问所述URL所对应网页并将该网页的数据存储至数据源中。
即本实施例提供的网页收集方案能自动访问互联网,并沿着当前网页中的所有URL爬到其它网页,抓取到这些网页并保存这些网页的数据。重复上述抓取过程,把爬过的所有网页的数据收集到数据源中。
在一次网页收集操作结束,获取到数据源之后,本实施例还能够在后续对所获取的数据源进行更新,更新的具体操作包括:
获取当前网页的更新标签信息,所述更新标签信息指示网页的更新时间。例如,在执行网页抓取之前,向服务器发送超文本传输协议(HTTP)请求,服务器返回HTTP响应,该HTTP响应中包括网页的更新标签信息,从而获知网页的更新时间。
根据所述更新标签信息判断当前网页中的数据是否为新数据,例如:若更新标签信息指示的网页的更新时间为t1,上一次数据源获取或更新过程的完成时间为t2,t1在t2之后时,表明当前网页中的数据为新数据,t1在t2之前时,表明当前网页中的数据已经被抓取过了,无需重复抓取。
在当前网页中的数据是新数据时,抓取当前网页的数据存储至数据源中,检测所述当前网页上的所有URL,访问并抓取所述URL所对应网页并将该网页的数据存储至数据源中,以及,将所述URL所对应的网页设置为当前网页。
在收集到网页数据之后,本实施例还对网页数据进行处理,以加快数据搜索的速度并提高搜索结果的准确度。例如,对收集到的网页数据进行解析,剔除数据中的控制信息以及格式信息等与搜索无关的数据,还可以对网页数据中的冗余信息(如停用词等)进行剔除,保留与搜索相关的网页内容数据和数据编码类型等,将这些与搜索相关的数据作为索引数据,由索引数据建立索引数据库。
12:接收用户的搜索请求,所述搜索请求中携带至少两个关键词,所述关键词属于同一数据的候选项。
上述关键词可以为一个词语,或者由多个词语组成的一段文本。可以理解,所述关键词也可以为用以标识图像或图形的信息。
本实施例中采用在多个候选项(关键词)中确认所需的正确信息的方案。例如,一个示例中搜索请求中可以携带两个关键词,“mathematics”和“mathmatics”,这两个关键词都属于“数学”的正确英文拼写的候选项。
13:在索引数据库中分别搜索所述关键词,并统计与关键词所匹配的数据的搜索结果数目。
对上述示例,统计索引数据库中与关键词“mathematics”相匹配(或相一致)的搜索结果的数目,并统计索引数据库中与关键词“mathmatics”相匹配(或相一致)的搜索结果的数目,参见下表1,显示所得到的一种统计结果。
表1
关键词 | mathematics | mathmatics |
搜索结果数目 | 108,000,000 | 600,000 |
14:比较所述搜索结果数目,将具有最大搜索结果数目的关键字作为获取到的正确的数据。
上述示例中,关键词“mathematics”的搜索结果数目大于关键词“mathmatics”的搜索结果数目,确定关键词“mathematics”为所得到的正确的数据,即为“数学”的正确英文拼写。
由上述可见,本方案通过利用“正确数据的使用概率总是多于错误数据使用概率”的原则,能够得到正确的数据。
本发明实施例二提供了一种正确数据的获取装置,参见图2,所述装置包括:
数据库建立单元21,用于根据获取到的数据源建立索引数据库;
搜索请求接收单元22,用于接收用户的搜索请求,所述搜索请求中携带至少两个关键词,所述关键词属于同一数据的候选项;
搜索统计单元23,用于在索引数据库中搜索分别所述关键词,并统计与关键词所匹配的数据的搜索结果数目;
比较确认单元24,用于比较所述搜索结果数目,将具有最大搜索结果数目的关键字作为获取到的正确的数据。
进一步的,所述数据库建立单元21所使用的数据源是利用互联网中的网页数据得到的。
进一步的,所述数据库建立单元21包括数据存储模块和数据抓取模块。
所述数据存储模块,用于抓取互联网上的当前网页的数据存储至数据源中;
所述数据抓取模块,用于检测所述当前网页上的所有统一资源定位符URL,访问并抓取所述URL所对应网页。
所述数据存储模块,还用于将所述数据抓取模块所访问的网页的数据存储至数据源中,将所述URL所对应的网页设置为当前网页。
所述数据库建立单元还包括数据源更新模块,用于获取当前网页的更新标签信息,所述更新标签信息指示网页的更新时间;根据所述更新标签信息判断当前网页中的数据是否为新数据,若否,不再抓取当前网页中的数据,若是,抓取当前网页的数据存储至数据源中,检测所述当前网页上的所有URL,访问并抓取所述URL所对应网页并将该网页的数据存储至数据源中,以及,将所述URL所对应的网页设置为当前网页。
进一步的,所述数据库建立单元21,具体用于对数据源中存储的网页数据进行解析,提取出索引数据,并利用该索引数据建立索引数据库,所述索引数据包括网页内容数据和数据编码类型。
本发明实施例二的装置中各单元的具体工作方式可以参见本发明实施例的方法实施例中的相关内容。
本发明实施例通过对数据使用和传输的原理进行分析,发现了一种数据处理的规律,该规律为数据的交互是建立在一套规范、统一的原则上且绝大部分所使用的数据都符合相同原则,从而通过对数据的搜索和对搜索结果的统计能够得到正确的数据。
并且,本方案能够直接利用互联网上的网页信息生成所需的索引数据库,能够快速有效地建立起具有一定规模的索引数据库,保证了正确获取数据的实现。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种正确数据的获取方法,其特征在于,根据获取到的数据源建立索引数据库,所述方法包括:
接收用户的搜索请求,所述搜索请求中携带至少两个关键词,所述关键词属于同一数据的候选项;
在索引数据库中分别搜索所述关键词,并统计与关键词所匹配的数据的搜索结果数目;
比较所述搜索结果数目,将具有最大搜索结果数目的关键字作为获取到的正确的数据。
2.根据权利要求1所述的方法,其特征在于,
所述数据源是利用互联网中的网页数据得到的。
3.根据权利要求2所述的方法,其特征在于,通过如下方式获取所述数据源:
抓取互联网上的当前网页的数据存储至数据源中;
检测所述当前网页上的所有统一资源定位符URL,访问并抓取所述URL所对应网页并将该网页的数据存储至数据源中;将所述URL所对应的网页设置为当前网页,继续执行所述抓取互联网上的当前网页的数据存储至数据源中。
4.根据权利要求3所述的方法,其特征在于,通过如下方式更新所获取到的数据源:
获取当前网页的更新标签信息,所述更新标签信息指示网页的更新时间;
根据所述更新标签信息判断当前网页中的数据是否为新数据,若否,不再抓取当前网页中的数据,若是,抓取当前网页的数据存储至数据源中,检测所述当前网页上的所有URL,访问并抓取所述URL所对应网页并将该网页的数据存储至数据源中,以及,将所述URL所对应的网页设置为当前网页。
5.根据权利要求2所述的方法,其特征在于,所述根据获取到的数据源建立索引数据库包括:
对数据源中存储的网页数据进行解析,提取出索引数据,并利用该索引数据建立索引数据库,所述索引数据包括网页内容数据和数据编码类型。
6.一种正确数据的获取装置,其特征在于,所述装置包括
数据库建立单元,用于根据获取到的数据源建立索引数据库;
搜索请求接收单元,用于接收用户的搜索请求,所述搜索请求中携带至少两个关键词,所述关键词属于同一数据的候选项;
搜索统计单元,用于在索引数据库中搜索分别所述关键词,并统计与关键词所匹配的数据的搜索结果数目;
比较确认单元,用于比较所述搜索结果数目,将具有最大搜索结果数目的关键字作为获取到的正确的数据。
7.根据权利要求6所述的装置,其特征在于,
所述数据库建立单元所使用的数据源是利用互联网中的网页数据得到的。
8.根据权利要求7所述的装置,其特征在于,所述数据库建立单元包括数据存储模块和数据抓取模块,
所述数据存储模块,用于抓取互联网上的当前网页的数据存储至数据源中;
所述数据抓取模块,用于检测所述当前网页上的所有统一资源定位符URL,访问并抓取所述URL所对应网页;
所述数据存储模块,还用于将所述数据抓取模块所访问的网页的数据存储至数据源中,将所述URL所对应的网页设置为当前网页。
9.根据权利要求8所述的装置,其特征在于,所述数据库建立单元还包括数据源更新模块,
所述数据源更新模块,用于获取当前网页的更新标签信息,所述更新标签信息指示网页的更新时间;根据所述更新标签信息判断当前网页中的数据是否为新数据,若否,不再抓取当前网页中的数据,若是,抓取当前网页的数据存储至数据源中,检测所述当前网页上的所有URL,访问并抓取所述URL所对应网页并将该网页的数据存储至数据源中,以及,将所述URL所对应的网页设置为当前网页。
10.根据权利要求7所述的装置,其特征在于,
所述数据库建立单元,具体用于对数据源中存储的网页数据进行解析,提取出索引数据,并利用该索引数据建立索引数据库,所述索引数据包括网页内容数据和数据编码类型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110457415.8A CN103186618B (zh) | 2011-12-30 | 2011-12-30 | 正确数据的获取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110457415.8A CN103186618B (zh) | 2011-12-30 | 2011-12-30 | 正确数据的获取方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103186618A true CN103186618A (zh) | 2013-07-03 |
CN103186618B CN103186618B (zh) | 2016-06-29 |
Family
ID=48677787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110457415.8A Active CN103186618B (zh) | 2011-12-30 | 2011-12-30 | 正确数据的获取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103186618B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003228571A (ja) * | 2001-11-28 | 2003-08-15 | Kyoji Umemura | 文字列の出現頻度の計数方法およびその方法を利用可能な装置 |
WO2006006287A1 (ja) * | 2004-07-12 | 2006-01-19 | Shinichiro Fujiya | ウエブ上の商品・サービスの検索システム |
CN1909522A (zh) * | 2006-08-18 | 2007-02-07 | 北京金山软件有限公司 | 获取网页关键字的方法及其应用系统 |
CN1975729A (zh) * | 2005-12-02 | 2007-06-06 | 国际商业机器公司 | 搜索文本中关键词的系统及其方法 |
CN101118556A (zh) * | 2007-09-17 | 2008-02-06 | 中国科学院计算技术研究所 | 一种短文本的新词发现方法和系统 |
CN101201838A (zh) * | 2007-08-21 | 2008-06-18 | 新百丽鞋业(深圳)有限公司 | 利用词组索引技术对基于关键词索引的搜索引擎进行改进的方法 |
CN101984423A (zh) * | 2010-10-21 | 2011-03-09 | 百度在线网络技术(北京)有限公司 | 一种热搜词生成方法及系统 |
-
2011
- 2011-12-30 CN CN201110457415.8A patent/CN103186618B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003228571A (ja) * | 2001-11-28 | 2003-08-15 | Kyoji Umemura | 文字列の出現頻度の計数方法およびその方法を利用可能な装置 |
WO2006006287A1 (ja) * | 2004-07-12 | 2006-01-19 | Shinichiro Fujiya | ウエブ上の商品・サービスの検索システム |
CN1975729A (zh) * | 2005-12-02 | 2007-06-06 | 国际商业机器公司 | 搜索文本中关键词的系统及其方法 |
CN1909522A (zh) * | 2006-08-18 | 2007-02-07 | 北京金山软件有限公司 | 获取网页关键字的方法及其应用系统 |
CN101201838A (zh) * | 2007-08-21 | 2008-06-18 | 新百丽鞋业(深圳)有限公司 | 利用词组索引技术对基于关键词索引的搜索引擎进行改进的方法 |
CN101118556A (zh) * | 2007-09-17 | 2008-02-06 | 中国科学院计算技术研究所 | 一种短文本的新词发现方法和系统 |
CN101984423A (zh) * | 2010-10-21 | 2011-03-09 | 百度在线网络技术(北京)有限公司 | 一种热搜词生成方法及系统 |
Non-Patent Citations (2)
Title |
---|
卢娇丽等: "基于成对比较的关键词权重计算与主题词抽取", 《山西大学学报(自然科学版)》, no. 1, 15 February 2005 (2005-02-15) * |
梁伟明: "中文关键词提取技术", 《中国优秀硕士学位论文全文数据库(电子期刊)》, 15 November 2010 (2010-11-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN103186618B (zh) | 2016-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102054015B (zh) | 使用有机物件数据模型来组织社群智能信息的系统及方法 | |
CN100405371C (zh) | 一种提取新词的方法和系统 | |
WO2019218514A1 (zh) | 网页目标信息的提取方法、装置及存储介质 | |
CN102054016B (zh) | 用于撷取及管理社群智能信息的系统及方法 | |
CN100514323C (zh) | 用于自动提取副标题信息的系统和方法 | |
CN103049575B (zh) | 一种主题自适应的学术会议搜索系统 | |
CN102662969B (zh) | 一种基于网页结构语义的互联网信息对象定位方法 | |
CN106776567B (zh) | 一种互联网大数据分析提取方法及系统 | |
CN112749284B (zh) | 知识图谱构建方法、装置、设备及存储介质 | |
CN102567494B (zh) | 网站分类方法及装置 | |
RU2011122657A (ru) | Устройство сбора данных, система сбора данных и способ сбора данных | |
CN102253937A (zh) | 获取网页中的感兴趣信息的方法及相关装置 | |
CN101853300A (zh) | 一种视频下载服务网站的识别、评估方法及系统 | |
CN103838732A (zh) | 一种生活服务领域垂直搜索引擎 | |
CN103294781A (zh) | 一种用于处理页面数据的方法与设备 | |
CN104503891A (zh) | 对jvm线程进行在线监控的方法和装置 | |
CN108416034B (zh) | 基于金融异构大数据的信息采集系统及其控制方法 | |
CN102207946A (zh) | 一种知识网络的半自动生成方法 | |
CN101101605A (zh) | 搜索网页的方法、装置及系统和建立索引数据库的装置 | |
CN106844782B (zh) | 一种面向网络的多通道大数据采集系统及方法 | |
CN101630315B (zh) | 一种快速检索方法及系统 | |
KR102107474B1 (ko) | 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법 | |
CN112035723A (zh) | 资源库的确定方法和装置、存储介质及电子装置 | |
CN102902792A (zh) | 列表页识别系统及方法 | |
CN103248513A (zh) | 基于Office办公套件的网络信息数据采集方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder |
Address after: Room 810, 8 / F, 34 Haidian Street, Haidian District, Beijing 100080 Patentee after: BEIJING D-MEDIA COMMUNICATION TECHNOLOGY Co.,Ltd. Address before: 100089 Beijing city Haidian District wanquanzhuang Road No. 28 Wanliu new building 6 storey block A room 602 Patentee before: BEIJING D-MEDIA COMMUNICATION TECHNOLOGY Co.,Ltd. |
|
CP02 | Change in the address of a patent holder |