CN105956192A

CN105956192A - 一种基于网站首页信息获取组织机构名简称的方法及系统

Info

Publication number: CN105956192A
Application number: CN201610424303.5A
Authority: CN
Inventors: 李晓东; 张俊玲; 耿光刚; 延志伟; 陈勇
Original assignee: China Internet Network Information Center
Current assignee: China Internet Network Information Center
Priority date: 2016-06-15
Filing date: 2016-06-15
Publication date: 2016-09-21

Abstract

本发明公开了一种基于网站首页信息获取组织机构名简称的方法及系统。该方法利用的是组织机构网站首页信息进行简称获取，能够有针对性的、高效的获取到相关组织机构的惯用简称；能够在不使用锚文本信息的情况下获取到组织机构名的简称，是对使用锚文本确定机构名简称的方法的补充；并且能够计算简称和全称之间的相似度，在简称获取方面有较高的准确率。

Description

一种基于网站首页信息获取组织机构名简称的方法及系统

技术领域

本发明涉及互联网数据分析技术领域，具体涉及一种基于网站首页信息获取组织机构名简称的方法及系统。

背景技术

组织机构泛指机关、团体或其他企事业单位，包括政府部门、科研单位、各类院校、公司企业、国际组织等。在日常生活中，对于一些字数较多的组织机构名，我们通常习惯于用其约定俗成的简称来代替全称，例如，“发展和改革委员会”通常简称“发改委”，“中国科学院计算技术研究所”通常简称“中科院计算所”，“北京邮电大学”通常简称“北邮”。随着互联网的普及以及各类信息的极速膨胀，越来越多的网民习惯于利用搜索引擎进行信息的查询和网站的查找，而且网民在进行搜索时也通常使用简称进行搜索。然而搜索引擎在处理全称与简称之间的对应关系时，以往只能使用人工添加的方式来实现，这样将耗费大量的人力，而且还容易出现更新不及时或遗漏的情形，造成覆盖不到相关的搜索结果，导致召回率低，用户体验差。

针对上述问题，百度曾提出一种基于网页锚文本确定机构名简称(别称)的方法，该方法在专利“一种机构别称的获取方法和装置”中进行了详细介绍。但是上述专利使用的基于锚文本的机构别称获取方法有一定的局限性，即并不是所有的机构名别称都会出现在锚文本中。对于存在机构别称但没有锚文本指向该机构网站时，上述专利所述方法就不再适用。

发明内容

本发明目的在于提供一种基于网站首页信息获取组织机构名简称的方法及系统。该方法能够在不使用锚文本信息的情况下获取到组织机构名的简称，并且能够计算简称和全称之间的相似度，且在简称获取方面有较高的准确率。

本发明的技术方案叙述如下：

一种基于网站首页信息获取组织机构名简称的方法，包括以下步骤：

(1)根据域名地址获取到组织机构网站首页的源代码(即HTML代码)，从源代码中提取出该网站对应的组织机构全称。

(2)去除组织机构网站首页源代码中的所有HTML标签，保留全部的文本信息；

(3)从上述文本信息中提取出每个特征词之前(或之后)的字符串；

(4)从每个提取到的字符串中过滤掉未在组织机构全称中出现的字符，将过滤后不为空的字符串保存于候选简称集合(AbbrSet)；

(5)计算候选简称集合中每个候选简称与组织机构全称的相似度；

(6)从候选简称中根据相似度选取组织机构的简称。

步骤(3)中根据预先构建的组织机构名上下文特征词集合,从上述文本信息中提取出每个特征词之前(或之后)的字符串。对于特征词集合的构建方法本发明不做限制。

步骤(3)中，提取的字符串长度为机构名全称的长度(因为机构名简称的长度一般都不会超过全称的长度)。

步骤(4)中，对每个提取到的字符串根据全称中的字符采用字符匹配的方式进行过滤。

步骤(5)中，候选简称与组织机构全称的相似度(Similarity)为：S除以组织机构全称分词后的词数，即：

Similarity(简称，全称)＝S/(组织机构全称分词后的词数)，其中，S为分词后的候选简称和分词后的组织机构全称的匹配得分。

S的计算方法如下：首先对组织机构全称进行分词，得到组织机构全称的关键词列表；再对候选简称集合中每个候选简称进行分词，得到候选简称的关键词列表，然后统计分词后的候选简称和分词后的组织机构全称的匹配得分，匹配记分方法为：1)如果候选简称的关键词列表中的一个关键词存在于组织机构全称的关键词列表中，则该候选简称得分加1；2)如果候选简称的关键词列表中的一个关键词出现于组织机构全称的关键词列表中某个关键词的开头位置，则该候选简称得分加1；3)如果候选简称的关键词列表中的一个关键词出现于组织机构全称的关键词列表中某个关键词的非开头位置，则该候选简称得分加0.5；4)如果候选简称的关键词列表中的第一个关键词位于全称的起始位置，则该候选简称得分加1，否则减1。

步骤(6)中，对候选简称根据相似度从大到小进行排序选取候选简称作为组织机构的简称，或者选取相似度值大于某一阈值的候选简称作为组织机构的简称。

一种基于网站首页信息获取组织机构名简称的系统，包括：

源代码提取及处理模块，用于根据域名地址获取到组织机构网站首页的源代码，从源代码中提取出该网站对应的组织机构全称，并去除组织机构网站首页源代码中的所有HTML标签，保留全部的文本信息；

候选简称集合构建模块，用于从源代码提取及处理模块获得的文本信息中提取出每个特征词之前(或之后)的字符串；并从每个提取到的字符串中过滤掉未在组织机构全称中出现的字符，将过滤后不为空的字符串保存于候选简称集合；

组织机构名简称获取模块，用于计算候选简称集合中每个候选简称与组织机构全称的相似度，并根据相似度从候选简称中选取组织机构的简称。

进一步地，上述系统还包括用于构建组织机构名上下文特征词集合的机构名上下文特征训练模块。

进一步地，所述候选简称集合构建模块根据组织机构名上下文特征词集合提取出每个特征词之前(或之后)的字符串。

本发明的有益效果如下：

(1)本发明利用的是组织机构网站首页信息进行简称获取，能够有针对性的、高效的获取到相关组织机构的惯用简称；

(2)本发明在不使用锚文本的情况下来确定组织机构的简称，是对使用锚文本确定机构名简称的方法的补充；

(3)利用组织机构网站首页信息提取候选简称，并利用分词进行相似度计算的方法，在简称获取方面有较高的准确率。

附图说明

图1是本发明提取组织机构名简称的方法的流程图。

具体实施方式

实施例一：

附图图1是组织机构简称提取方法的流程图。如图1所示，该方法主要包含以下四个主要步骤，下面将进行详细叙述。

步骤1：通过训练已知全称和简称的网站首页信息来提取伴随机构名称经常出现的词，即机构名的上下文特征词，用于之后大批量的机构名提取。由于全称和简称在上下文中具有互换性，因此我们在训练机构名上下文特征词时不区分全称和简称。下面详细介绍了特征词训练过程。

选取200个组织机构的域名地址，用人工标注的方式确定这些网站的机构名全称和简称，并记录为<域名地址，全称，简称1，简称2，……>格式，例如：

1)www.cas.ac.cn,中国科学院,中科院；

2)www.bit.edu.cn,北京理工大学,北理工,北理；

3)www.ndrc.gov.cn,中华人民共和国国家发展和改革委员会,国家发改委；

4)www.shfao.gov.cn,上海市人民政府外事办公室,上海外事办；

5)www.ihep.cas.cn,中国科学院高能物理研究所,高能所；

6)www.cmbchina.com,招商银行,招行；

根据<域名地址，全称，简称1，简称2，……>中的域名地址，获取到该域名地址对应网站的首页源代码(HTML代码)，然后对源代码中的文本信息进行提取和分析。可以使用开源Java应用程序接口JSoup来获取域名地址对应的网页源代码，以及提取和分析源代码中的文本信息。对于提取到的文本信息，即去除HTML标签后的保留内容，然后使用开源Java中文分词工具包IKAnalyzer对其进行分词。在进行分词时将常用机构名称字典配置为IKAnalyzer的扩展字典，以确保分词器不对组织机构的全称和简称进行分词，且该常用机构名称字典包含上述200个组织机构的全称和简称；另外，在分词时也未使用停用词表，以确保分词后文本信息的完整性。对网页源代码中的文本信息进行分词后，从词语(包括单字)集合中识别出机构名全称和简称前后的词语，对于全称和简称之前的词语将其保存于文件word-before中，对于全称和简称之后的词语将其保存于文件word-after中。

所有的训练网页都处理完毕后，word-before文件中包含了机构名之前经常出现的候选特征词，word-after文件中则包含了机构名之后经常出现的候选特征词。然后分别统计这两个文件中各个特征词出现的次数，形成<特征词，出现频次>二元信息组。因为上述两个上下文特征词文件中可能存在着诸如人名、地名的干扰词，例如北京理工大学的首页中出现过语句“北京理工大学孙逢春受聘TCL杰出教授”，全称“北京理工大学”后就跟着一个人名，该人名就是一个干扰词，需要去除，因此，将出现频次少于10次的特征词去除，最后获得了用于从网页中识别机构名称的上下文特征词集合。

1.根据首页标题获取候选全称1

首先根据网站的域名地址获取到相应站点的首页源代码，根据首页的文档对象模型树获取到页面的标题。由于网站的首页页面标题有时候会含有一些干扰信息，例如宁夏大学的网站首页使用了“欢迎访问宁夏大学”作为首页标题，招商银行的网站首页使用了“一网通主页--招商银行官方网站”作为首页标题，因此需要对获取到的网页标题进行一些处理。根据标题中是否存在标点符号对标题进行区分处理：

1)对于不含标点的标题，我们判断标题中是否含有“欢迎”、“您”、“你”、“访问”、“登录”、“光临”、“来到”、“进入”、“首页”、“主页”、“站点首页”、“站点主页”、“网站首页”、“网站主页”、“官方网站”、“官网”、“门户网站”、“门户”等字词，若不含有这些字词，直接将标题作为候选全称1，若标题中含有上述字词，则去除标题中的上述字词，将去除上述字词之后的字符串作为候选全称1。

2)对于含有标点符号的标题，用所含的标点符号对标题进行拆分形成子串集合，然后判断子串集合中哪个子串可以作为候选全称1。首先采用特征词匹配的方式，若子串以特征词“网”、“网站”、“官网”、“官方网站”、“首页”、“主页”、“站点首页”、“站点主页”、“网站首页”、“网站主页”、“门户网站”、“门户”、“公司”、“集团”、“机构”等词结尾，则将该子串识别为候选名称，对该子串进行与不含标点的标题相同的处理，将处理后的子串作为候选全称1；若不能根据结尾特征词判断哪个子串可以作为候选全称1，则将第一个子串作为候选全称1，选择第一个子串作为候选全称1是出于以下两点考虑：a)许多机构的网站将全称放在网站标题的开头位置；b)若不能根据标题获得正确的全称，也可以根据版权块信息获取到全称。

2.根据版权块信息获取候选全称2

3.综合候选全称1和2确定全称

一般网站首页标题不会为空，获取到的候选全称1也不会为空，而候选全称2可能为空，根据如下规则来确定网站对应的组织机构的全称：

1)如果候选全称1和2均不为空且内容相同，我们直接用候选全称1(或2)作为全称；

3)如果候选全称2为空字符串，我们就将候选全称1作为全称。

一般情况下，综合标题和版权块这两种来源的信息我们可以获取到大部分网站的全称。

步骤3：从网站首页的文本信息中提取出可能的候选简称。对于每一个域名地址，在获取其相应组织机构全称后，进行机构名简称的提取。具体的简称提取步骤叙述如下。

a)对于根据域名地址获取到的网站首页源代码，去除其中所有的HTML标签，从而获取到全部的文本信息；

b)利用步骤1训练获得的机构名上下文特征词集合，从上述文本信息中，提取出特征词集合中每个词之前(或之后)的字符串，考虑到机构名简称的长度一般都不会超过全称的长度，将提取的字符串长度设定为机构名全称的长度；

c)然后对于每个提取到的字符串，首先根据全称利用字符匹配的方式过滤掉未在全称中出现的所有字符，将经过过滤处理的字符串保存于候选简称集合AbbrSet，若过滤后字符串为空则不再加入AbbrSet中；

d)经过过滤处理后，虽然AbbrSet中每个字符串中的每个字符都在全称中出现，但是有可能会出现字符间顺序和全称顺序不同的情况，例如在获取中国科学院高能物理研究所的简称时，AbbrSet中就存在着这样的字符串“研高能所”，出现这种情况的原因，一方面是因为无法确定机构名简称的字数，只能提取最大的机构名全称长度的字符，因此提取到的简称包含有干扰信息，虽然经过过滤处理，但并不能保证干扰信息中不包含有全称中的字符；另一方面，在根据特征词进行字符串提取时，特征词之前(或之后)的字符串可能不是组织机构简称，但包含有全称中的某些字。针对这种情况，考虑到大部分机构名简称不会出现逆序的情况，可对AbbrSet中的每个字符串进行了拆分处理，使候选简称不包含有逆序的情况，将候选简称尽可能的分离出来。采用的策略为，对AbbrSet中的每个字符串，如果该字符串存在逆序，就将其拆分成不含逆序的若干子串，例如“研高能所”，我们就可以根据全称中各个字符的顺序将其拆分成“研”和“高能所”两个子串，然后将拆分后的各子串加入到AbbrSet中并删除原来的字符串。

经过上述步骤后，就获得了候选简称集合AbbrSet，但是AbbrSet中的字符串并不一定就是符合要求的、人们惯用的简称，所以需要进一步进行判定，也就是进行简称和相应全称的相似度计算。

步骤4：计算可能的候选简称与全称的相似度，并根据相似度值确定最终的简称。具体计算方法如下：

a)首先对候选简称进行分词，得到该候选简称的关键词列表abbrKeywordsList；

b)对abbrKeywordsList中的每个关键词判断它在全称关键词列表中的出现情况以及出现位置，并据此对该候选简称进行记分。记候选简称为abbr，对abbr分词后得到关键词列表abbrKeywordsList，abbr得分记为score[abbr]记分规则为：

1)对abbrKeywordsList中的一个关键词keyword1，如果它存在于fullNameKeywordsList中，则该候选简称得分加1；

2)对abbrKeywordsList中的一个关键词keyword1，如果它出现于fullNameKeywordsList中某个关键词的开头位置，则该候选简称得分加1；

3)对abbrKeywordsList中的一个关键词keyword1，如果它出现于fullNameKeywordsList中某个关键词的非开头位置，则该候选简称得分加0.5；

4)若abbrKeywordsList中的第一个关键词位于全称的起始位置，则该候选简称得分加1，否则减1。

c)通过上述记分规则累计获得候选简称总的匹配得分。

完成AbbrSet中每个候选简称的匹配得分后，将每个候选简称的匹配得分都除以全称关键词列表的长度，用该值作为相应候选简称与全称的相似度值，若相似度值大于1.0则以1.0计。最后判断候选简称的相似度值是否大于相似度阈值0.75，如果是，则将其判定为相应机构全称的简称。

申请人利用上述方法对1287个组织机构网站进行实验，利用组织机构网站首页信息提取候选简称，并利用分词进行相似度计算的方法，全称提取正确率达93.9％，简称的召回率和正确率分别达到了85.3％和90.8％，实验表明，该方法具有良好的效果。

Claims

1.一种基于网站首页信息获取组织机构名简称的方法，包括以下步骤：

(1)根据域名地址获取到组织机构网站首页的源代码，从源代码中提取出该网站对应的组织机构全称；

(3)从上述文本信息中提取出每个特征词之前或之后的字符串；

(4)从每个提取到的字符串中过滤掉未在组织机构全称中出现的字符，将过滤后不为空的字符串保存于候选简称集合；

(6)从候选简称中根据相似度选取组织机构的简称。

2.如权利要求1所述的基于网站首页信息获取组织机构名简称的方法，其特征在于，步骤(3)中根据预先构建的组织机构名上下文特征词集合从上述文本信息中提取出每个特征词之前或之后的字符串。

3.如权利要求1所述的基于网站首页信息获取组织机构名简称的方法，其特征在于，步骤(3)中，提取的字符串长度为机构名全称的长度。

4.如权利要求1所述的基于网站首页信息获取组织机构名简称的方法，其特征在于，步骤(4)中，对每个提取到的字符串根据全称中的字符采用字符匹配的方式进行过滤。

5.如权利要求1所述的基于网站首页信息获取组织机构名简称的方法，其特征在于，步骤(5)中，候选简称与组织机构全称的相似度Similarity为：S除以组织机构全称分词后的词数，即：

Similarity(简称，全称)＝S/组织机构全称分词后的词数，其中，S为分词后的候选简称和分词后的组织机构全称的匹配得分。

6.如权利要求5所述的基于网站首页信息获取组织机构名简称的方法，其特征在于，S的计算方法如下：首先对组织机构全称进行分词，得到组织机构全称的关键词列表；再对候选简称集合中每个候选简称进行分词，得到候选简称的关键词列表，然后统计分词后的候选简称和分词后的组织机构全称的匹配得分，匹配记分方法为：1)如果候选简称的关键词列表中的一个关键词存在于组织机构全称的关键词列表中，则该候选简称得分加1；2)如果候选简称的关键词列表中的一个关键词出现于组织机构全称的关键词列表中某个关键词的开头位置，则该候选简称得分加1；3)如果候选简称的关键词列表中的一个关键词出现于组织机构全称的关键词列表中某个关键词的非开头位置，则该候选简称得分加0.5；4)如果候选简称的关键词列表中的第一个关键词位于全称的起始位置，则该候选简称得分加1，否则减1。

7.如权利要求1所述的基于网站首页信息获取组织机构名简称的方法，其特征在于，步骤(6)中，对候选简称根据相似度从大到小进行排序选取候选简称作为组织机构的简称，或者选取相似度值大于某一阈值的候选简称作为组织机构的简称。

8.一种基于网站首页信息获取组织机构名简称的系统，包括：

候选简称集合构建模块，用于从源代码提取及处理模块获得的文本信息中提取出每个特征词之前或之后的字符串；并从每个提取到的字符串中过滤掉未在组织机构全称中出现的字符，将过滤后不为空的字符串保存于候选简称集合；

9.如权利要求8所述的基于网站首页信息获取组织机构名简称的系统，其特征在于，还包括用于构建组织机构名上下文特征词集合的机构名上下文特征训练模块。

10.如权利要求8所述的基于网站首页信息获取组织机构名简称的系统，其特征在于，所述候选简称集合构建模块根据组织机构名上下文特征词集合提取出每个特征词之前或之后的字符串。