CN106096040B - 基于搜索引擎的机构网站归属地判别方法及其装置 - Google Patents

基于搜索引擎的机构网站归属地判别方法及其装置 Download PDF

Info

Publication number
CN106096040B
CN106096040B CN201610487194.1A CN201610487194A CN106096040B CN 106096040 B CN106096040 B CN 106096040B CN 201610487194 A CN201610487194 A CN 201610487194A CN 106096040 B CN106096040 B CN 106096040B
Authority
CN
China
Prior art keywords
text
content
website
encyclopaedia
web
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610487194.1A
Other languages
English (en)
Other versions
CN106096040A (zh
Inventor
丑晓慧
甘亮
李爱平
赫中翮
黄东川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201610487194.1A priority Critical patent/CN106096040B/zh
Publication of CN106096040A publication Critical patent/CN106096040A/zh
Application granted granted Critical
Publication of CN106096040B publication Critical patent/CN106096040B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于搜索引擎的机构网站归属地判别方法及其装置,该方法基于搜索引擎实时爬取并处理Web数据,具有多个数据采集分析与处理模块,智能化检测机构网站的真实归属地。相较于人工整理收录的方式,该方法属于自动化检测,节省了人工判断和处理的时间,实时采集处理数据,时效性强,提升了数据有效性,覆盖查询范围更广,检测效果更好。

Description

基于搜索引擎的机构网站归属地判别方法及其装置
技术领域
本发明涉及网站信息获取技术领域,具体的涉及一种基于搜索引擎的机构网站归属地判别方法及其装置。
背景技术
目前的网络环境中信息铺天盖地,真假信息参差不齐,对于一些机构网站尤其那些既与民众息息相关又具有盈利性质的虚假机构网站,用户多数情况下无从对其性质进行准确判别。若能获知这些机构网站在现实世界中的归属地,将有利于用户其真实性进行准确判断。而对于互联网管理部门进行网络整顿、情报收集、机构查证等常规检查时,则需要通过获取网站的地理位置来获取该网站的地理位置应用场景。网站机构的地理位置归属地是一个网站的重要信息,该信息缺失为互联网管理部门对网站进行监管、对访问用户对网站进行判别带来较大的困难。
目前网络上大量机构网站的信息并不完整,无法通过直观的网站信息得知机构的归属地,互联网中大量机构网站的网页内容缺少地理位置标明的原因:为实现网站的非法运营而隐藏地理位置、网站建设时不慎遗漏等,而有的机构网站又存在名称重复和指示的地理信息重名等现象。现有网络环境中,无法仅依靠网站提供的信息来准确判断该机构的真实归属地,例如“长沙县”这个地名,不仅在中国湖南省长沙市有一个地名为长沙县,越南也有一个地名为长沙县;再比如“凤凰镇”这个地名,仅在中国境内就存在16个同名的凤凰镇,分布在全国各个省份,如果仅仅通过“凤凰镇人民政府网”网站的名称,是无法准确识别出该网站所指凤凰镇是哪个省份的凤凰镇政府机构网站。
现有方法多是通过人工收录机构信息的黄页信息服务平台进行检索。但所收录的很多网络信息存在机构信息缺失或者不完整的情况,并且通过人工收集和整理网站信息所需人力资源和成本较高,耗时较久,实时维护更新也存在难题。现有的另一种方法则是通过简单的域名解析获得IP地址,进一步以查询到该网站对应的服务器地址来获得机构网站的地址,该方法获得的网站机构的地理信息并不准确,仅仅凭借服务器的地理位置并不能判断该机构的真实归属地。
现有的获取信息较为准确的方法是通过人工收录机构信息的黄页信息服务平台获取,但由于是人工方式处理,很多网络存在的机构的信息并未及时收录或者收录内容不完整,并且人为收集和整理需要耗费较大的人力资源和成本,实时维护更新也存在难题。而另一种通过简单的域名解析获得IP地址方法查询到对应的服务器地址来获得机构网站的地址方法并不准确,因为往往仅仅凭借服务器的地理位置并不能判断该机构的真实归属地。
发明内容
本发明的目的在于提供一种基于搜索引擎的机构网站归属地判别方法及其装置,该发明解决了现有技术中难以快速准确自动地的获得机构类网站机构归属地的技术问题。
本发明的一方面提供了一种基于搜索引擎的机构网站归属地判别方法及其装置,包括以下步骤:
步骤S100:爬取待处理机构网站的URL,将域名URL解析成IP地址,根据该IP地址,定位待处理网站服务器所在地,判断该IP地址与服务器所在地地理位置是否存在一一对应关系,如果该IP地址对应的服务器所在地地理位置唯一,则以该服务器所在地的地理位置作为该结构网址的归属地;
步骤200:如果该IP地址对应多个服务器所在地地理位置,爬取机构网站的文本内容,判断网站文本内容中是否已经包含归属地名称,如果判断为是,则以网站文本内容中的归属地信息作为待处理机构网站的归属地,如果判断为否,则通过命名实体识别算法提取网站文本内容中的关键词,并将关键词保存到关键词列表S中;
步骤S300:通过搜索引擎,检索关键词列表S中所有关键词,将搜索结果对应的网站作为候选网站,并提取候选网站中的文本内容;
步骤S400:对所提取的文本内容进行命名实体识别,提取出关键词列表F,将关键词列表S与关键词列表F进行网页文本匹配,获得匹配度最高的前十个网站,逐一对匹配度最高的前十个网站的所有文本内容进行句法分析,提取地理位置信息,作为该机构网站的归属地。
进一步地,步骤S300中还包括判断候选网站中是否存在百科词条,如果是百科词条,分析百科页面提取地理位置信息,并保存至百科文本内容;如果不是百科词条,则爬取并解析搜索结果页面内容,保存搜索结果文本内容。
进一步地,关键词包括人名、地名和机构名。
本发明的另一方面还提供了一种用于上述方法的基于搜索引擎的机构网站归属地判别装置,包括:
网站信息爬取模块,用于爬取待处理机构网站的URL,将域名URL解析成IP地址,根据该IP地址,定位待处理网站服务器所在地,判断该IP地址与服务器所在地地理位置是否存在一一对应关系,如果该IP地址对应的服务器所在地地理位置唯一,则以该服务器所在地的地理位置作为该结构网址的归属地;
网页内容爬取模块,如果该IP地址对应多个服务器所在地地理位置,爬取机构网站的文本内容,判断网站文本内容中是否已经包含归属地名称,如果判断为是,则以网站文本内容中的归属地信息作为待处理机构网站的归属地,如果判断为否,则通过命名实体识别算法提取网站文本内容中的关键词,并将关键词保存到关键词列表S中;
搜索采集模块,用于通过搜索引擎,检索关键词列表S中所有关键词,将搜索结果对应的网站作为候选网站,并提取候选网站中的文本内容;
数据识别地理信息推断模块,用于对所提取的文本内容进行命名实体识别,提取出关键词列表F,将关键词列表S与关键词列表F进行网页文本匹配,获得匹配度最高的前十个网站,逐一对匹配度最高的前十个网站的所有文本内容进行句法分析,提取地理位置信息,作为该机构网站的归属地。
进一步地,搜索采集模块还包括:百科词条模块,用于判断候选网站中是否存在百科词条,如果是百科词条,分析百科页面提取地理位置信息,并保存至百科文本内容;如果不是百科词条,则爬取并解析搜索结果页面内容,保存搜索结果文本内容。
进一步地,关键词包括人名、地名和机构名。
相对现有技术,本发明的技术效果:
1、本发明提供的基于搜索引擎的机构网站归属地判别方法,通过网站链接地址爬取网站进行解析,提取网站的各种特征信息,如域名解析成的IP地址,备案信息等,通过对网站内容通过命名实体识别算法,提取出关键信息特征,结合搜索引擎对关键词进行全网搜索,统计所得搜索页面中相关关键词的出现频度,通过网页之间内容的相似性算法来匹配包含地理信息在内的所有可能的候选网站,通过提取候选网站中的地理信息,从而检测出该网站对应机构的真实归属地。该方法快捷简便准确,所需时间和人力成本远低于现有的通过人力统计搜集信息的方式。
2、本发明提供的基于搜索引擎的机构网站归属地判别方法,能实现实时采集处理数据,时效性强,提升了数据有效性,全网搜索,覆盖查询范围更广,检测效果更好覆盖查询范围更广,检测效果更好。
3、本发明提供的基于搜索引擎的机构网站归属地判别方法,该方法获得网站机构的信息并不局限于网站架设的服务器路由位置,检测结果的准确性更高。
具体请参考根据本发明的食品泵轴提出的各种实施例的如下描述,将使得本发明的上述和其他方面显而易见。
附图说明
图1是本发明提供的基于搜索引擎的机构网站归属地判别方法的流程示意图;
图2是本发明提供的基于搜索引擎的机构网站归属地判别装置的结构示意图。
具体实施方式
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
本发明涉及目标机构网站的归属地判别,亦可以用于目标网站的相关情报搜索等。
为便于理解,对本发明提供方法说明如下:通过解析目标网站的网页内容,提取出网站中可以用于推理机构地理信息的特征:域名解析的IP对应的服务器位置、网站文本内容、对服务器路由定位、网页内容命名实体识别、搜索引擎爬取网页文本数据、网页相关性关键词匹配以及频度计算。
参见图1,本发明提供的基于搜索引擎的机构网站归属地判别方法,包括以下步骤:
步骤S100:爬取待处理机构网站的URL,将域名URL解析成IP地址,根据该IP地址,定位待处理网站服务器所在地,判断该IP地址与服务器所在地地理位置是否存在一一对应关系,如果该IP地址对应的服务器所在地地理位置唯一,则以该服务器所在地的地理位置作为该结构网址的归属地;在此步骤中,还可以根据所处理的网站提供的信息获取网站的备案号或网站结构等信息进行处理。由于备案号通常涉及到地理位置,因而对于此类网站可以直接获知其准确的地理位置。
例如某凤凰镇政府的机构网址:“http://www.fenghuang.gov.cn/”,该凤凰镇政府的机构网址对应的IP地址:“60.210.98.150”。根据该IP地址,定位该某凤凰镇政府的机构网址对应的服务器地址:“山东省淄博市”。
这是因为在现有网站建设过程中,为了提高用户访问网站的速度,多会使用DNS负载均衡。DNS负载均衡是在DNS服务器中为同一个主机名配置多个IP地址,在应答DNS查询时,DNS服务器对每个查询均以DNS文件中主机记录的IP地址为对象,按顺序返回不同的解析结果,从而将客户端的访问引导到不同的机器上去,这使得不同的客户端能实现对不同服务器的访问,从而达到负载均衡的目的。
上例中只有一个IP地址,那么可以通过该IP对应的服务器所在地来确定该机构的真实归属地。但是,其他机构网站,例如“国家体育总局”的网址“www.sport.gov.cn”经过域名解析得到多个提供相同服务的服务器,而服务器位于不同的省份,因此不能通过服务器地址来确定该机构具体位置,那么将需要进一步地分析网站文本来推测判断该机构网站对应的机构所在地。
步骤200:如果该IP地址对应多个服务器所在地地理位置,则爬取机构网站的文本内容,判断网站文本内容中是否已经包含归属地名称,如果判断为是,则以网站文本内容中的归属地信息作为待处理机构网站的归属地,如果判断为否,则通过命名实体识别算法提取网站文本内容中的关键词,并将关键词保存到列表S中;
如上例中“国家体育总局”网站首页底部信息中的备案号“京ICP备05070991号”提示了机构所在地为“北京”,并且该网站直接给出了地址名称“北京市东城区体育馆路2号”。
如因为有的机构网站构建不完善,并未给出此类信息,那么需要进一步分析网页中全部文本的内容,提取关键信息。通过命名实体识别算法,对网站文本内容进行识别,识别出具有特定意义的实体,并将这些关键词保存到列表S中。
优选的,关键词包括人名、地名和机构名。按此提取能提高该方法获得最终归属地结果的准确性。
此处的命名实体识别算法可以参考俞鸿魁,张华平,刘群等.发表于《通信学报》2006,27(2):87-94.DOI:10.3321/j.issn:1000-436X.2006.02.013.中的《基于层叠隐马尔可夫模型的中文命名实体识别》或张华平,刘群.发表于《计算机学报》,2004,27(1):85-91.DOI:10.3321/j.issn:0254-4164.2004.01.010.的《基于角色标注的中国人名自动识别研究》。
步骤S300:通过搜索引擎,检索关键词列表S中所有关键词,将搜索结果对应的网站作为候选网站,并提取候选网站中的文本内容;
优选的,为了提高检索效率,步骤S300中还包括:判断候选网站中是否存在百科词条,如果不是百科词条,则爬取并解析候选网站的页面内容,保存文本内容;如果是百科词条,则提取百科文本内容,并判断百科文本内容中是否包含候选网站的子词条,如果百科文本内容中包含多个子词条,则对该网页进行网页文本匹配计算,找到与待处理机构网站最相关的某条词条对应的页面,并提取其中的地理位置信息;如果百科文本内容中没有子词条,则直接提取百科文本内容中的地理位置信息。此处的最相关是指匹配计算结果数值最高的词条。
此处的子词条是待处理机构网站的多义词。
百科收录的机构,会直接提供地理信息,比如“长沙市政府”的百科页面中直接提供了“地理位置:长沙市进行大道与岳麓大道交汇处”这条信息。
因为百科知识库中数据更加精炼准确,对于已经收录的机构,百科数据可直接提供准确的地理位置,例如“凤凰镇”,在百度百科中就存在16个不同的词条,对不同省市的“凤凰镇”每一个词条都有具体的介绍。若网页为百科页面,因为百科网站一般具有固定的网页结构,因此可以通过分析百科页面的结构,直接提取出有效的地理位置信息。
步骤400:对所提取的文本内容进行命名实体识别,提取出关键词列表F,将关键词列表S与关键词列表F进行网页文本匹配,获得匹配度最高的前十个网站,逐一对匹配度最高的前十个网站的所有文本内容进行句法分析,提取地理位置信息,作为该机构网站的归属地。
此处的句法分析可以参考辛霄,范士喜,王轩等发表于《中文信息学报》,2009,23(2):18-22.DOI:10.3969/j.issn.1003-0077.2009.02.002中的《基于最大熵的依存句法分析》。
优选的,网页文本匹配包括以下步骤:
将关键词列表S(OrgWebKeywords)与关键词列表F(CandidateWebKeywords)进行匹配计算,匹配率最高的前十个网页作为候选网页。
匹配率=关键词列表F中的词个数/关键词列表S中的词个数
参见图2,本发明的另一方面还提供了一种用于上述方法的装置,包括:
网站信息爬取模块,用于爬取待处理机构网站的URL,将域名URL解析成IP地址,根据该IP地址,定位待处理网站服务器所在地,判断该IP地址与服务器所在地地理位置是否存在一一对应关系,如果该IP地址对应的服务器所在地地理位置唯一,则以该服务器所在地的地理位置作为该结构网址的归属地;
网页内容爬取模块,如果该IP地址对应多个服务器所在地地理位置,爬取机构网站的文本内容,判断网站文本内容中是否已经包含归属地名称,如果判断为是,则以网站文本内容中的归属地信息作为待处理机构网站的归属地,如果判断为否,则通过命名实体识别算法提取网站文本内容中的关键词,并将关键词保存到关键词列表S中;
搜索采集模块,用于通过搜索引擎,检索关键词列表S中所有关键词,将搜索结果对应的网站作为候选网站,并提取候选网站中的文本内容;
数据识别地理信息推断模块,用于对所提取的文本内容进行命名实体识别,提取出关键词列表F,将关键词列表S与关键词列表F进行网页文本匹配,获得匹配度最高的前十个网站,逐一对匹配度最高的前十个网站的所有文本内容进行句法分析,提取地理位置信息,作为该机构网站的归属地。
采用上述装置能完成对不具有完整归属地的机构网站归属地的提取,其准确性高于现有方法。
网站信息爬取模块,目前IPV4协议使用的是32位地址,也就是理论上会有2的32次方个地址,约有42亿个地址,全球共用,不同国家分配的地址段不一样,也就是根据地址段就可判别是哪个国家的,中国约分配到6000多万个IP地址,同理各个省各个地区的地址段也不一样,因此根据IP地址就可判断出服务器所在地。本模块根据机构网站的URL,将域名解析成IP地址,根据IP地址可以得到网站架设的服务器的所在地,一般可以精确到市级地。
之后应用爬虫技术,网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。通过网站的URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,通过分析网站架构,提取目标内容。本模块实现网页内容抓取,并将内容以文本形式传送至Web文本数据识别计算模块进行处理。
搜索采集模块,本模块主要是利用搜索引擎采集数据,通过搜索目标网站的关键词列表中的单个关键词,将搜索结果页面利用网站结构及内容爬取模块抓取下来,进行分析处理。
数据识别地理信息推断模块,本模块主要涉及命名实体识别技术,网页文本匹配计算。命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,比如“长沙县”为表明地理位置的具有特定意义的实体。由于机器无法对文本词汇的词性进行判断,必须通过一些识别技术来区分词性,本模块采用命名实体识别技术,识别出网页内容中的关键词,如地名,人名,机构名等,为每个单独的网页构建关键词列表,并将获取到的关键词存入列表中以备后续数据采集以及网页文本匹配计算使用。该模块同时使用网页文本匹配算法,具体计算方式为,将机构网站中的关键词列表与采集到的Web数据中的关键词列表进行匹配计算,匹配率最高的前十个网页作为候选网页。
之后采用句法分析,句法分析(Parsing)就是指对句子中的词语语法功能进行分析。利用已经获取到的候选网站,再次应用命名实体识别技术将候选网页中的关键词识别出来,并通过句法分析,提取出有效的地理位置信息。从而确定该机构网站的真实归属地。
优选的,搜索采集模块还包括:百科词条模块,用于判断候选网站中是否存在百科词条,如果不是百科词条,则爬取并解析候选网站的页面内容,保存文本内容;如果是百科词条,则提取百科文本内容,并判断百科文本内容中是否包含候选网站的子词条,如果百科文本内容中包含多个子词条,则对该网页进行网页文本匹配计算,找到与待处理机构网站最相关的某条词条对应的页面,并提取其中的地理位置信息;如果百科文本内容中没有子词条,则直接提取百科文本内容中的地理位置信息。采用该模块,能提高检搜索效率,减少无效检索。
优选的,关键词包括人名、地名和机构名。有利于提高该装置对机构网站归属地的提取效率和提取准确性。
本领域技术人员将清楚本发明的范围不限制于以上讨论的示例,有可能对其进行若干改变和修改,而不脱离所附权利要求书限定的本发明的范围。尽管己经在附图和说明书中详细图示和描述了本发明,但这样的说明和描述仅是说明或示意性的,而非限制性的。本发明并不限于所公开的实施例。
通过对附图,说明书和权利要求书的研究,在实施本发明时本领域技术人员可以理解和实现所公开的实施例的变形。在权利要求书中,术语“包括”不排除其他步骤或元素,而不定冠词“一个”或“一种”不排除多个。在彼此不同的从属权利要求中引用的某些措施的事实不意味着这些措施的组合不能被有利地使用。权利要求书中的任何参考标记不构成对本发明的范围的限制。

Claims (6)

1.一种基于搜索引擎的机构网站归属地判别方法,其特征在于,包括以下步骤:
步骤S100:爬取待处理机构网站的URL,将域名URL解析成IP地址,根据该IP地址,定位待处理网站服务器所在地,判断该IP地址与服务器所在地地理位置是否存在一一对应关系,如果该IP地址对应的服务器所在地地理位置唯一,则以该服务器所在地的地理位置作为该机构网站的归属地;
步骤200:如果该IP地址对应多个服务器所在地地理位置,爬取机构网站的文本内容,判断网站文本内容中是否已经包含归属地名称,如果判断为是,则以网站文本内容中的归属地信息作为待处理机构网站的归属地,如果判断为否,则通过命名实体识别算法提取网站文本内容中的关键词,并将关键词保存到关键词列表S中;
步骤S300:通过搜索引擎,检索关键词列表S中所有关键词,将搜索结果对应的网站作为候选网站,并提取候选网站中的文本内容;
步骤S400:对所提取的文本内容进行命名实体识别,提取出关键词列表F,将关键词列表S与关键词列表F进行网页文本匹配,获得匹配度最高的前十个网站,逐一对匹配度最高的前十个网站的所有文本内容进行句法分析,提取地理位置信息,作为该机构网站的归属地。
2.根据权利要求1所述的基于搜索引擎的机构网站归属地判别方法,其特征在于,所述步骤S300中还包括判断候选网站中是否存在百科词条,如果不存在百科词条,则爬取并解析候选网站的页面内容,保存文本内容;如果存在百科词条,则提取百科文本内容,并判断百科文本内容中是否包含候选网站的子词条,如果百科文本内容中包含多个子词条,则对该网页进行网页文本匹配计算,找到与待处理机构网站最相关的某条词条对应的页面,并提取该页面中的地理位置信息;如果百科文本内容中没有子词条,则直接提取百科文本内容中的地理位置信息。
3.根据权利要求2所述的基于搜索引擎的机构网站归属地判别方法,其特征在于,所述关键词包括人名、地名和机构名。
4.一种用于权利要求1~3中任一权利要求所述的方法的基于搜索引擎的机构网站归属地判别装置,其特征在于,包括:
网站信息爬取模块,用于爬取待处理机构网站的URL,将域名URL解析成IP地址,根据该IP地址,定位待处理网站服务器所在地,判断该IP地址与服务器所在地地理位置是否存在一一对应关系,如果该IP地址对应的服务器所在地地理位置唯一,则以该服务器所在地的地理位置作为该机构网站的归属地;
网页内容爬取模块,如果该IP地址对应多个服务器所在地地理位置,爬取机构网站的文本内容,判断网站文本内容中是否已经包含归属地名称,如果判断为是,则以网站文本内容中的归属地信息作为待处理机构网站的归属地,如果判断为否,则通过命名实体识别算法提取网站文本内容中的关键词,并将关键词保存到关键词列表S中;
搜索采集模块,用于通过搜索引擎,检索关键词列表S中所有关键词,将搜索结果对应的网站作为候选网站,并提取候选网站中的文本内容;
数据识别地理信息推断模块,用于对所提取的文本内容进行命名实体识别,提取出关键词列表F,将关键词列表S与关键词列表F进行网页文本匹配,获得匹配度最高的前十个网站,逐一对匹配度最高的前十个网站的所有文本内容进行句法分析,提取地理位置信息,作为该机构网站的归属地。
5.根据权利要求4所述的基于搜索引擎的机构网站归属地判别装置,其特征在于,所述搜索采集模块还包括:百科词条模块,用于判断候选网站中是否存在百科词条,如果不存在百科词条,则爬取并解析候选网站的页面内容,保存文本内容;如果存在百科词条,则提取百科文本内容,并判断百科文本内容中是否包含候选网站的子词条,如果百科文本内容中包含多个子词条,则对该网页进行网页文本匹配计算,找到与待处理机构网站最相关的某条词条对应的页面,并提取该页面中的地理位置信息;如果百科文本内容中没有子词条,则直接提取百科文本内容中的地理位置信息。
6.根据权利要求4所述的基于搜索引擎的机构网站归属地判别装置,其特征在于,所述关键词包括人名、地名和机构名。
CN201610487194.1A 2016-06-29 2016-06-29 基于搜索引擎的机构网站归属地判别方法及其装置 Active CN106096040B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610487194.1A CN106096040B (zh) 2016-06-29 2016-06-29 基于搜索引擎的机构网站归属地判别方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610487194.1A CN106096040B (zh) 2016-06-29 2016-06-29 基于搜索引擎的机构网站归属地判别方法及其装置

Publications (2)

Publication Number Publication Date
CN106096040A CN106096040A (zh) 2016-11-09
CN106096040B true CN106096040B (zh) 2019-06-04

Family

ID=57214298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610487194.1A Active CN106096040B (zh) 2016-06-29 2016-06-29 基于搜索引擎的机构网站归属地判别方法及其装置

Country Status (1)

Country Link
CN (1) CN106096040B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480297A (zh) * 2017-08-30 2017-12-15 福建中金在线信息科技有限公司 一种文章收录方法及装置
CN107590265A (zh) * 2017-09-22 2018-01-16 杭州安恒信息技术有限公司 一种基于网络爬虫的网站行政归属识别方法
CN107967300B (zh) * 2017-11-07 2020-06-23 平安科技(深圳)有限公司 机构名称的检索方法、装置、设备及存储介质
CN110677374A (zh) * 2018-07-02 2020-01-10 中国电信股份有限公司 防钓鱼攻击的方法、装置及计算机可读存储介质
CN111726336B (zh) * 2020-05-14 2021-10-29 北京邮电大学 一种联网智能设备识别信息提取方法及系统
CN112084389A (zh) * 2020-08-17 2020-12-15 上海交通大学 一种基于网络爬虫的学术机构地理位置信息抽取方法
CN113158001B (zh) * 2021-03-25 2024-05-14 深圳市联软科技股份有限公司 一种网络空间ip资产归属及相关性判别方法及系统
CN115982508B (zh) * 2023-03-21 2023-06-27 中国人民解放军国防科技大学 基于异构信息网络的网站检测方法、电子设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101355595A (zh) * 2008-09-17 2009-01-28 北京搜狗科技发展有限公司 定位ip地址的物理所在地的方法和装置
CN101902442A (zh) * 2009-05-25 2010-12-01 中国科学院计算机网络信息中心 获取ip地理位置信息的方法、系统及位置信息服务器
CN102577252A (zh) * 2009-10-21 2012-07-11 瑞科网信科技有限公司 基于地理位置信息确定应用传送服务器的方法和系统
CN102622356A (zh) * 2011-01-27 2012-08-01 腾讯科技(深圳)有限公司 一种关联地理位置信息的百科知识系统
CN103207901A (zh) * 2013-03-21 2013-07-17 百度在线网络技术(北京)有限公司 一种基于搜索引擎获取ip地址归属地的方法和装置
CN103259877A (zh) * 2013-04-15 2013-08-21 北京百度网讯科技有限公司 Ip地址的地理位置确定方法及系统
CN103617205A (zh) * 2013-11-15 2014-03-05 北京奇虎科技有限公司 一种识别ip地址的区域归属地信息的方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101355595A (zh) * 2008-09-17 2009-01-28 北京搜狗科技发展有限公司 定位ip地址的物理所在地的方法和装置
CN101902442A (zh) * 2009-05-25 2010-12-01 中国科学院计算机网络信息中心 获取ip地理位置信息的方法、系统及位置信息服务器
CN102577252A (zh) * 2009-10-21 2012-07-11 瑞科网信科技有限公司 基于地理位置信息确定应用传送服务器的方法和系统
CN102622356A (zh) * 2011-01-27 2012-08-01 腾讯科技(深圳)有限公司 一种关联地理位置信息的百科知识系统
CN103207901A (zh) * 2013-03-21 2013-07-17 百度在线网络技术(北京)有限公司 一种基于搜索引擎获取ip地址归属地的方法和装置
CN103259877A (zh) * 2013-04-15 2013-08-21 北京百度网讯科技有限公司 Ip地址的地理位置确定方法及系统
CN103617205A (zh) * 2013-11-15 2014-03-05 北京奇虎科技有限公司 一种识别ip地址的区域归属地信息的方法和装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Mining the Web and the Internet for Accurate IP Address Geolocations;Chuanxiong Guo et al.;《IEEE INFOCOM 2009》;20090602;第2841-2845页
一种基于关联规则挖掘的IP定位方法;王婷等;《东南大学学报(自然科学版)》;20150731;第45卷(第4期);第657-662页
基于层叠隐马尔可夫模型的中文命名实体识别;俞鸿魁等;《通信学报》;20060228;第27卷(第2期);第87-94页
基于最大熵的依存句法分析;辛霄等;《中文信息学报》;20090228;第23卷(第2期);第18-22页
基于网络拓扑测量的ip地址定位系统的设计与实现;宋建;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150815(第08期);第I139-24页

Also Published As

Publication number Publication date
CN106096040A (zh) 2016-11-09

Similar Documents

Publication Publication Date Title
CN106096040B (zh) 基于搜索引擎的机构网站归属地判别方法及其装置
CN103218431B (zh) 一种能识别网页信息自动采集的系统
WO2016112679A1 (zh) 实现智能问答的方法、系统和存储介质
CN102054015B (zh) 使用有机物件数据模型来组织社群智能信息的系统及方法
US8682646B2 (en) Semantic relationship-based location description parsing
US8682882B2 (en) System and method for automatically identifying classified websites
CN108021718A (zh) 物联网能力知识图谱及其构建方法
US20150200963A1 (en) Method for detecting phishing website without depending on samples
CN102591867B (zh) 一种基于移动设备位置的搜索服务方法
CN107566376A (zh) 一种威胁情报生成方法、装置及系统
CN109905288B (zh) 一种应用服务分类方法及装置
CN110012122B (zh) 一种基于词嵌入技术的域名相似性分析方法
CN109657470A (zh) 恶意网页检测模型训练方法、恶意网页检测方法及系统
Hu et al. Improving wikipedia-based place name disambiguation in short texts using structured data from dbpedia
CN103678528A (zh) 基于段落抄袭检测的电子作业反抄袭系统和方法
CN108846117A (zh) 商业快讯的去重筛选方法及装置
CN103207901B (zh) 一种基于搜索引擎获取ip地址归属地的方法和装置
CN105069076A (zh) 确定官网首页中的地址信息的方法及装置
CN106357835B (zh) 一种用于确定目标ip地址所属地域的方法与设备
CN107590265A (zh) 一种基于网络爬虫的网站行政归属识别方法
CN110020161B (zh) 数据处理方法、日志处理方法和终端
CN105279249B (zh) 一种网站中兴趣点数据的置信度的判定方法和装置
Cai et al. Address extraction: Extraction of location-based information from the web
CN110209804B (zh) 目标语料的确定方法和装置、存储介质及电子装置
CN103167056A (zh) 一种基于自动审核的域名注册方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant