CN106096040B

CN106096040B - 基于搜索引擎的机构网站归属地判别方法及其装置

Info

Publication number: CN106096040B
Application number: CN201610487194.1A
Authority: CN
Inventors: 丑晓慧; 甘亮; 李爱平; 赫中翮; 黄东川
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2016-06-29
Filing date: 2016-06-29
Publication date: 2019-06-04
Anticipated expiration: 2036-06-29
Also published as: CN106096040A

Abstract

本发明提供一种基于搜索引擎的机构网站归属地判别方法及其装置，该方法基于搜索引擎实时爬取并处理Web数据，具有多个数据采集分析与处理模块，智能化检测机构网站的真实归属地。相较于人工整理收录的方式，该方法属于自动化检测，节省了人工判断和处理的时间，实时采集处理数据，时效性强，提升了数据有效性，覆盖查询范围更广，检测效果更好。

Description

基于搜索引擎的机构网站归属地判别方法及其装置

技术领域

本发明涉及网站信息获取技术领域，具体的涉及一种基于搜索引擎的机构网站归属地判别方法及其装置。

背景技术

目前的网络环境中信息铺天盖地，真假信息参差不齐，对于一些机构网站尤其那些既与民众息息相关又具有盈利性质的虚假机构网站，用户多数情况下无从对其性质进行准确判别。若能获知这些机构网站在现实世界中的归属地，将有利于用户其真实性进行准确判断。而对于互联网管理部门进行网络整顿、情报收集、机构查证等常规检查时，则需要通过获取网站的地理位置来获取该网站的地理位置应用场景。网站机构的地理位置归属地是一个网站的重要信息，该信息缺失为互联网管理部门对网站进行监管、对访问用户对网站进行判别带来较大的困难。

目前网络上大量机构网站的信息并不完整，无法通过直观的网站信息得知机构的归属地，互联网中大量机构网站的网页内容缺少地理位置标明的原因：为实现网站的非法运营而隐藏地理位置、网站建设时不慎遗漏等，而有的机构网站又存在名称重复和指示的地理信息重名等现象。现有网络环境中，无法仅依靠网站提供的信息来准确判断该机构的真实归属地，例如“长沙县”这个地名，不仅在中国湖南省长沙市有一个地名为长沙县，越南也有一个地名为长沙县；再比如“凤凰镇”这个地名，仅在中国境内就存在16个同名的凤凰镇，分布在全国各个省份，如果仅仅通过“凤凰镇人民政府网”网站的名称，是无法准确识别出该网站所指凤凰镇是哪个省份的凤凰镇政府机构网站。

现有方法多是通过人工收录机构信息的黄页信息服务平台进行检索。但所收录的很多网络信息存在机构信息缺失或者不完整的情况，并且通过人工收集和整理网站信息所需人力资源和成本较高，耗时较久，实时维护更新也存在难题。现有的另一种方法则是通过简单的域名解析获得IP地址，进一步以查询到该网站对应的服务器地址来获得机构网站的地址，该方法获得的网站机构的地理信息并不准确，仅仅凭借服务器的地理位置并不能判断该机构的真实归属地。

现有的获取信息较为准确的方法是通过人工收录机构信息的黄页信息服务平台获取，但由于是人工方式处理，很多网络存在的机构的信息并未及时收录或者收录内容不完整，并且人为收集和整理需要耗费较大的人力资源和成本，实时维护更新也存在难题。而另一种通过简单的域名解析获得IP地址方法查询到对应的服务器地址来获得机构网站的地址方法并不准确，因为往往仅仅凭借服务器的地理位置并不能判断该机构的真实归属地。

发明内容

本发明的目的在于提供一种基于搜索引擎的机构网站归属地判别方法及其装置，该发明解决了现有技术中难以快速准确自动地的获得机构类网站机构归属地的技术问题。

本发明的一方面提供了一种基于搜索引擎的机构网站归属地判别方法及其装置，包括以下步骤：

步骤S100：爬取待处理机构网站的URL，将域名URL解析成IP地址，根据该IP地址，定位待处理网站服务器所在地，判断该IP地址与服务器所在地地理位置是否存在一一对应关系，如果该IP地址对应的服务器所在地地理位置唯一，则以该服务器所在地的地理位置作为该结构网址的归属地；

步骤200：如果该IP地址对应多个服务器所在地地理位置，爬取机构网站的文本内容，判断网站文本内容中是否已经包含归属地名称，如果判断为是，则以网站文本内容中的归属地信息作为待处理机构网站的归属地，如果判断为否，则通过命名实体识别算法提取网站文本内容中的关键词，并将关键词保存到关键词列表S中；

步骤S300：通过搜索引擎，检索关键词列表S中所有关键词，将搜索结果对应的网站作为候选网站，并提取候选网站中的文本内容；

步骤S400：对所提取的文本内容进行命名实体识别，提取出关键词列表F，将关键词列表S与关键词列表F进行网页文本匹配，获得匹配度最高的前十个网站，逐一对匹配度最高的前十个网站的所有文本内容进行句法分析，提取地理位置信息，作为该机构网站的归属地。

进一步地，步骤S300中还包括判断候选网站中是否存在百科词条，如果是百科词条，分析百科页面提取地理位置信息，并保存至百科文本内容；如果不是百科词条，则爬取并解析搜索结果页面内容，保存搜索结果文本内容。

进一步地，关键词包括人名、地名和机构名。

本发明的另一方面还提供了一种用于上述方法的基于搜索引擎的机构网站归属地判别装置，包括：

网站信息爬取模块，用于爬取待处理机构网站的URL，将域名URL解析成IP地址，根据该IP地址，定位待处理网站服务器所在地，判断该IP地址与服务器所在地地理位置是否存在一一对应关系，如果该IP地址对应的服务器所在地地理位置唯一，则以该服务器所在地的地理位置作为该结构网址的归属地；

网页内容爬取模块，如果该IP地址对应多个服务器所在地地理位置，爬取机构网站的文本内容，判断网站文本内容中是否已经包含归属地名称，如果判断为是，则以网站文本内容中的归属地信息作为待处理机构网站的归属地，如果判断为否，则通过命名实体识别算法提取网站文本内容中的关键词，并将关键词保存到关键词列表S中；

搜索采集模块，用于通过搜索引擎，检索关键词列表S中所有关键词，将搜索结果对应的网站作为候选网站，并提取候选网站中的文本内容；

数据识别地理信息推断模块，用于对所提取的文本内容进行命名实体识别，提取出关键词列表F，将关键词列表S与关键词列表F进行网页文本匹配，获得匹配度最高的前十个网站，逐一对匹配度最高的前十个网站的所有文本内容进行句法分析，提取地理位置信息，作为该机构网站的归属地。

进一步地，搜索采集模块还包括：百科词条模块，用于判断候选网站中是否存在百科词条，如果是百科词条，分析百科页面提取地理位置信息，并保存至百科文本内容；如果不是百科词条，则爬取并解析搜索结果页面内容，保存搜索结果文本内容。

进一步地，关键词包括人名、地名和机构名。

相对现有技术，本发明的技术效果：

1、本发明提供的基于搜索引擎的机构网站归属地判别方法，通过网站链接地址爬取网站进行解析，提取网站的各种特征信息，如域名解析成的IP地址，备案信息等，通过对网站内容通过命名实体识别算法，提取出关键信息特征，结合搜索引擎对关键词进行全网搜索，统计所得搜索页面中相关关键词的出现频度，通过网页之间内容的相似性算法来匹配包含地理信息在内的所有可能的候选网站，通过提取候选网站中的地理信息，从而检测出该网站对应机构的真实归属地。该方法快捷简便准确，所需时间和人力成本远低于现有的通过人力统计搜集信息的方式。

2、本发明提供的基于搜索引擎的机构网站归属地判别方法，能实现实时采集处理数据，时效性强，提升了数据有效性，全网搜索，覆盖查询范围更广，检测效果更好覆盖查询范围更广，检测效果更好。

3、本发明提供的基于搜索引擎的机构网站归属地判别方法，该方法获得网站机构的信息并不局限于网站架设的服务器路由位置，检测结果的准确性更高。

具体请参考根据本发明的食品泵轴提出的各种实施例的如下描述，将使得本发明的上述和其他方面显而易见。

附图说明

图1是本发明提供的基于搜索引擎的机构网站归属地判别方法的流程示意图；

图2是本发明提供的基于搜索引擎的机构网站归属地判别装置的结构示意图。

具体实施方式

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

本发明涉及目标机构网站的归属地判别，亦可以用于目标网站的相关情报搜索等。

为便于理解，对本发明提供方法说明如下：通过解析目标网站的网页内容，提取出网站中可以用于推理机构地理信息的特征：域名解析的IP对应的服务器位置、网站文本内容、对服务器路由定位、网页内容命名实体识别、搜索引擎爬取网页文本数据、网页相关性关键词匹配以及频度计算。

参见图1，本发明提供的基于搜索引擎的机构网站归属地判别方法，包括以下步骤：

步骤S100：爬取待处理机构网站的URL，将域名URL解析成IP地址，根据该IP地址，定位待处理网站服务器所在地，判断该IP地址与服务器所在地地理位置是否存在一一对应关系，如果该IP地址对应的服务器所在地地理位置唯一，则以该服务器所在地的地理位置作为该结构网址的归属地；在此步骤中，还可以根据所处理的网站提供的信息获取网站的备案号或网站结构等信息进行处理。由于备案号通常涉及到地理位置，因而对于此类网站可以直接获知其准确的地理位置。

例如某凤凰镇政府的机构网址：“http://www.fenghuang.gov.cn/”，该凤凰镇政府的机构网址对应的IP地址：“60.210.98.150”。根据该IP地址，定位该某凤凰镇政府的机构网址对应的服务器地址：“山东省淄博市”。

这是因为在现有网站建设过程中，为了提高用户访问网站的速度，多会使用DNS负载均衡。DNS负载均衡是在DNS服务器中为同一个主机名配置多个IP地址，在应答DNS查询时，DNS服务器对每个查询均以DNS文件中主机记录的IP地址为对象，按顺序返回不同的解析结果，从而将客户端的访问引导到不同的机器上去，这使得不同的客户端能实现对不同服务器的访问，从而达到负载均衡的目的。

上例中只有一个IP地址，那么可以通过该IP对应的服务器所在地来确定该机构的真实归属地。但是，其他机构网站，例如“国家体育总局”的网址“www.sport.gov.cn”经过域名解析得到多个提供相同服务的服务器，而服务器位于不同的省份，因此不能通过服务器地址来确定该机构具体位置，那么将需要进一步地分析网站文本来推测判断该机构网站对应的机构所在地。

步骤200：如果该IP地址对应多个服务器所在地地理位置，则爬取机构网站的文本内容，判断网站文本内容中是否已经包含归属地名称，如果判断为是，则以网站文本内容中的归属地信息作为待处理机构网站的归属地，如果判断为否，则通过命名实体识别算法提取网站文本内容中的关键词，并将关键词保存到列表S中；

如上例中“国家体育总局”网站首页底部信息中的备案号“京ICP备05070991号”提示了机构所在地为“北京”，并且该网站直接给出了地址名称“北京市东城区体育馆路2号”。

如因为有的机构网站构建不完善，并未给出此类信息，那么需要进一步分析网页中全部文本的内容，提取关键信息。通过命名实体识别算法，对网站文本内容进行识别，识别出具有特定意义的实体，并将这些关键词保存到列表S中。

优选的，关键词包括人名、地名和机构名。按此提取能提高该方法获得最终归属地结果的准确性。

此处的命名实体识别算法可以参考俞鸿魁,张华平,刘群等.发表于《通信学报》2006,27(2):87-94.DOI:10.3321/j.issn:1000-436X.2006.02.013.中的《基于层叠隐马尔可夫模型的中文命名实体识别》或张华平,刘群.发表于《计算机学报》,2004,27(1):85-91.DOI:10.3321/j.issn:0254-4164.2004.01.010.的《基于角色标注的中国人名自动识别研究》。

优选的，为了提高检索效率，步骤S300中还包括：判断候选网站中是否存在百科词条，如果不是百科词条，则爬取并解析候选网站的页面内容，保存文本内容；如果是百科词条，则提取百科文本内容，并判断百科文本内容中是否包含候选网站的子词条，如果百科文本内容中包含多个子词条，则对该网页进行网页文本匹配计算，找到与待处理机构网站最相关的某条词条对应的页面，并提取其中的地理位置信息；如果百科文本内容中没有子词条，则直接提取百科文本内容中的地理位置信息。此处的最相关是指匹配计算结果数值最高的词条。

此处的子词条是待处理机构网站的多义词。

百科收录的机构，会直接提供地理信息，比如“长沙市政府”的百科页面中直接提供了“地理位置：长沙市进行大道与岳麓大道交汇处”这条信息。

因为百科知识库中数据更加精炼准确，对于已经收录的机构，百科数据可直接提供准确的地理位置，例如“凤凰镇”，在百度百科中就存在16个不同的词条，对不同省市的“凤凰镇”每一个词条都有具体的介绍。若网页为百科页面，因为百科网站一般具有固定的网页结构，因此可以通过分析百科页面的结构，直接提取出有效的地理位置信息。

步骤400：对所提取的文本内容进行命名实体识别，提取出关键词列表F，将关键词列表S与关键词列表F进行网页文本匹配，获得匹配度最高的前十个网站，逐一对匹配度最高的前十个网站的所有文本内容进行句法分析，提取地理位置信息，作为该机构网站的归属地。

此处的句法分析可以参考辛霄,范士喜,王轩等发表于《中文信息学报》,2009,23(2):18-22.DOI:10.3969/j.issn.1003-0077.2009.02.002中的《基于最大熵的依存句法分析》。

优选的，网页文本匹配包括以下步骤：

将关键词列表S(OrgWebKeywords)与关键词列表F(CandidateWebKeywords)进行匹配计算，匹配率最高的前十个网页作为候选网页。

匹配率＝关键词列表F中的词个数/关键词列表S中的词个数

参见图2，本发明的另一方面还提供了一种用于上述方法的装置，包括：

采用上述装置能完成对不具有完整归属地的机构网站归属地的提取，其准确性高于现有方法。

网站信息爬取模块，目前IPV4协议使用的是32位地址，也就是理论上会有2的32次方个地址，约有42亿个地址，全球共用，不同国家分配的地址段不一样，也就是根据地址段就可判别是哪个国家的，中国约分配到6000多万个IP地址，同理各个省各个地区的地址段也不一样，因此根据IP地址就可判断出服务器所在地。本模块根据机构网站的URL，将域名解析成IP地址，根据IP地址可以得到网站架设的服务器的所在地，一般可以精确到市级地。

之后应用爬虫技术，网络爬虫(又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者)，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。通过网站的URL，解析DNS，并且得到主机的ip，并将URL对应的网页下载下来，通过分析网站架构，提取目标内容。本模块实现网页内容抓取，并将内容以文本形式传送至Web文本数据识别计算模块进行处理。

搜索采集模块，本模块主要是利用搜索引擎采集数据，通过搜索目标网站的关键词列表中的单个关键词，将搜索结果页面利用网站结构及内容爬取模块抓取下来，进行分析处理。

数据识别地理信息推断模块，本模块主要涉及命名实体识别技术，网页文本匹配计算。命名实体识别(Named Entity Recognition，简称NER)，又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等，比如“长沙县”为表明地理位置的具有特定意义的实体。由于机器无法对文本词汇的词性进行判断，必须通过一些识别技术来区分词性，本模块采用命名实体识别技术，识别出网页内容中的关键词，如地名，人名，机构名等，为每个单独的网页构建关键词列表，并将获取到的关键词存入列表中以备后续数据采集以及网页文本匹配计算使用。该模块同时使用网页文本匹配算法，具体计算方式为，将机构网站中的关键词列表与采集到的Web数据中的关键词列表进行匹配计算，匹配率最高的前十个网页作为候选网页。

之后采用句法分析，句法分析(Parsing)就是指对句子中的词语语法功能进行分析。利用已经获取到的候选网站，再次应用命名实体识别技术将候选网页中的关键词识别出来，并通过句法分析，提取出有效的地理位置信息。从而确定该机构网站的真实归属地。

优选的，搜索采集模块还包括：百科词条模块，用于判断候选网站中是否存在百科词条，如果不是百科词条，则爬取并解析候选网站的页面内容，保存文本内容；如果是百科词条，则提取百科文本内容，并判断百科文本内容中是否包含候选网站的子词条，如果百科文本内容中包含多个子词条，则对该网页进行网页文本匹配计算，找到与待处理机构网站最相关的某条词条对应的页面，并提取其中的地理位置信息；如果百科文本内容中没有子词条，则直接提取百科文本内容中的地理位置信息。采用该模块，能提高检搜索效率，减少无效检索。

优选的，关键词包括人名、地名和机构名。有利于提高该装置对机构网站归属地的提取效率和提取准确性。

本领域技术人员将清楚本发明的范围不限制于以上讨论的示例，有可能对其进行若干改变和修改，而不脱离所附权利要求书限定的本发明的范围。尽管己经在附图和说明书中详细图示和描述了本发明，但这样的说明和描述仅是说明或示意性的，而非限制性的。本发明并不限于所公开的实施例。

通过对附图，说明书和权利要求书的研究，在实施本发明时本领域技术人员可以理解和实现所公开的实施例的变形。在权利要求书中，术语“包括”不排除其他步骤或元素，而不定冠词“一个”或“一种”不排除多个。在彼此不同的从属权利要求中引用的某些措施的事实不意味着这些措施的组合不能被有利地使用。权利要求书中的任何参考标记不构成对本发明的范围的限制。

Claims

1.一种基于搜索引擎的机构网站归属地判别方法，其特征在于，包括以下步骤：

步骤S100：爬取待处理机构网站的URL，将域名URL解析成IP地址，根据该IP地址，定位待处理网站服务器所在地，判断该IP地址与服务器所在地地理位置是否存在一一对应关系，如果该IP地址对应的服务器所在地地理位置唯一，则以该服务器所在地的地理位置作为该机构网站的归属地；

2.根据权利要求1所述的基于搜索引擎的机构网站归属地判别方法，其特征在于，所述步骤S300中还包括判断候选网站中是否存在百科词条，如果不存在百科词条，则爬取并解析候选网站的页面内容，保存文本内容；如果存在百科词条，则提取百科文本内容，并判断百科文本内容中是否包含候选网站的子词条，如果百科文本内容中包含多个子词条，则对该网页进行网页文本匹配计算，找到与待处理机构网站最相关的某条词条对应的页面，并提取该页面中的地理位置信息；如果百科文本内容中没有子词条，则直接提取百科文本内容中的地理位置信息。

3.根据权利要求2所述的基于搜索引擎的机构网站归属地判别方法，其特征在于，所述关键词包括人名、地名和机构名。

4.一种用于权利要求1～3中任一权利要求所述的方法的基于搜索引擎的机构网站归属地判别装置，其特征在于，包括：

网站信息爬取模块，用于爬取待处理机构网站的URL，将域名URL解析成IP地址，根据该IP地址，定位待处理网站服务器所在地，判断该IP地址与服务器所在地地理位置是否存在一一对应关系，如果该IP地址对应的服务器所在地地理位置唯一，则以该服务器所在地的地理位置作为该机构网站的归属地；

5.根据权利要求4所述的基于搜索引擎的机构网站归属地判别装置，其特征在于，所述搜索采集模块还包括：百科词条模块，用于判断候选网站中是否存在百科词条，如果不存在百科词条，则爬取并解析候选网站的页面内容，保存文本内容；如果存在百科词条，则提取百科文本内容，并判断百科文本内容中是否包含候选网站的子词条，如果百科文本内容中包含多个子词条，则对该网页进行网页文本匹配计算，找到与待处理机构网站最相关的某条词条对应的页面，并提取该页面中的地理位置信息；如果百科文本内容中没有子词条，则直接提取百科文本内容中的地理位置信息。

6.根据权利要求4所述的基于搜索引擎的机构网站归属地判别装置，其特征在于，所述关键词包括人名、地名和机构名。