CN101727464A

CN101727464A - 获取别称匹配对的方法及装置

Info

Publication number: CN101727464A
Application number: CN200810225407A
Authority: CN
Inventors: 刘珊瑞; 张阔
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2008-10-29
Filing date: 2008-10-29
Publication date: 2010-06-09
Anticipated expiration: 2028-10-29
Also published as: CN101727464B

Abstract

本发明公开了获取别称匹配对的方法，该方法包括：获取互联网中各网页上呈现的内容；根据预置规则从各网页上呈现的内容中提取包含有别称匹配对的字符串对；对所述包含有别称匹配对的字符串对进行截断，获取别称匹配对。本发明还公开了一种获取别称匹配对的装置。通过本发明，可以更多、更全面地识别出可能出现的别称匹配对，进而有效利用识别出的别称匹配对来提高用户体验，提高数据的利用率。

Description

获取别称匹配对的方法及装置

技术领域

本发明涉及网络数据处理领域，特别是涉及获取别称匹配对的方法及装置。

背景技术

人们在日常生活中，经常会使用到别称，其中所述别称包括简称、别名、曾用名等，例如北京大学的简称为“北大”，“汞”的别名为“水银”，“北京大学”的曾用名为“京都大学堂”等。通常可以将原名与别称的对应关系成为别称匹配对。但是目前的搜索引擎并不能自动处理原名与别称之间的对应关系，这就造成了大量网页资源的浪费，影响了用户的体验。例如，“鸟巢”系“国家体育场”的别称，而某些网页中可能只包含“国家体育场”，而不包含“鸟巢”，此时在搜狗、百度、Google等搜索引擎中输入关键词“鸟巢”，搜索结果中将无法包括这样的网页。

现有技术可以通过从链接文本中提取别称匹配对来解决上述问题。该现有技术考虑到多个链接文本可以对应同一个网页，这些链接文本上呈现的文字可能相同也可能不同，由于这些链接文本上呈现的文字包含对网页内容简单概括的内容，因此可能包括一个关键词原名或别称，例如，如果某网页A跟某单位相关，则它对应的链接文本集合中很可能同时包含该单位对应的原名或别称。因此，该现有技术的方法是，首先假设某地点的原名与别称之间在字面上具有一定的相似性，比如“北京理工大学”和“北理工”；然后获取链接文本中展现的文字，则在链接文本中展现的文字中获取这样具有相似性的名称作为别称匹配对。这样可以建立起保存别称匹配对的数据库，当用户在搜索引擎中输入搜索信息时，可以查询数据库，如果存在包含搜索信息的别称匹配对时，可以给出仅包含该搜索信息别称的搜索结果，从而提升了用户的体验。

但是，上述方法在处理经常出现在链接文本中的地名数据时比较有效，但是并不能识别通常不会出现在链接文本中的别称数据，尽管这些别称很常见，例如，“电视机”简称“电视”，“化学肥料”简称“化肥”，等。因此，需要创造性地提出一种识别别称的技术手段，来尽量全面地识别出可能出现的别称匹配对。

发明内容

有鉴于此，本发明的目的在于提供获取别称匹配对的方法及装置，以解决现有技术无法全面地识别出可能出现的别称匹配对的问题。

为实现上述目的，本发明提供了如下方案：

一种获取别称匹配对的方法，包括：

获取互联网中各网页上呈现的内容；

根据预置规则从各网页上呈现的内容中提取包含有别称匹配对的字符串对；

对所述包含有别称匹配对的字符串对进行截断，获取别称匹配对。

优选的，所述各网页上呈现的内容是各网页上呈现的文字内容。

优选的，所述预置规则包括信息提取符规则，所述提取包含有别称匹配对的字符串对包括：

判断各网页上呈现的内容中是否包含预置的信息提取符；

如果包含所述信息提取符，判断所述信息提取符内的字符串中是否包含预置的提取关键词；

如果包含所述关键词，则根据所述信息提取符及所述关键词确定包含有别称匹配对的字符串对。

优选的，所述预置规则包括关键词规则，所述提取包含有别称匹配对的字符串对包括：

判断各网页上呈现的内容中是否包含预置的提取关键词；

如果包含所述预置的提取关键词，则根据提取关键词位置及特定标点确定包含有别称匹配对的字符串对。

优选的，通过以下方式对所述包含有别称匹配对的字符串对进行截断：

查找所述包含有别称匹配对的字符串对是否存在预置的截断提示符；如果存在，根据所述预置的截断提示符进行截断；

和/或，查找所述包含有别称匹配对的字符串对中，一字符串的首字是否在另一字符串中出现；如果出现，根据一字符串首字在另一字符串中出现的位置进行截断；

和/或，查找所述包含有别称匹配对的字符串对中是否存在空格符；如果存在，根据所述空格符出现的位置进行截断；

和/或，查找所述包含有别称匹配对的字符串对中是否存在地名；如果存在，根据地名出现的位置进行截断；

和/或，查询预置词库，所述预置词库用于保存用户使用过的查询词；根据预置词库中的查询词进行截断。

优选的，还包括：

对获取的别称匹配对进行修正。

优选的，所述对获取的别称匹配对进行修正包括：

统计每个别称匹配对出现的次数，根据出现的次数判断获取的别称匹配对的可信度；

过滤掉可信度低于预置阈值的别称匹配对。

优选的，所述对获取的别称匹配对进行修正包括：

查找获取的别称匹配对中是否存在预置的截断关键词，如果存在，根据预置的截断关键词对获取的别称匹配对进行再次截断；

或者，查找获取的别称匹配对中是否存在预置的过滤关键词；如果存在，根据预置的过滤关键词过滤掉错误的别称匹配对。

一种获取别称匹配对的装置，包括：

内容获取单元，用于获取互联网中各网页上呈现的内容；

提取单元，用于根据预置规则从各网页上呈现的内容中提取包含有别称匹配对的字符串对；

截断单元，用于对所述包含有别称匹配对的字符串对进行截断，获取别称匹配对。

优选的，所述提取单元包括：

第一判断子单元，用于判断各网页上呈现的内容中是否包含预置的信息提取符；如果包含，再判断所述信息提取符内的字符串中是否包含预置的提取关键词；

第一确定子单元，用于根据所述信息提取符及所述关键词确定包含有别称匹配对的字符串对。

优选的，所述提取单元包括：

第二判断子单元，用于判断各网页上呈现的内容中是否包含预置的提取关键词；

第二确定子单元，用于包含所述预置的提取关键词时，根据提取关键词位置及特定标点确定包含有别称匹配对的字符串对。

优选的，所述截断单元包括：

第一查找子单元，用于查找所述包含有别称匹配对的字符串对是否包含预置的截断提示符；

第一截断子单元，用于根据所述预置的截断提示符进行截断；

和/或，第二查找子单元，用于查找所述包含有别称匹配对的字符串对中，一字符串的首字是否在另一字符串中出现；

第二截断子单元，用于根据一字符串首字在另一字符串中出现的位置进行截断；

和/或，第三查找子单元，用于查找所述包含有别称匹配对的字符串对中是否包含空格符；

第四截断子单元，用于根据所述空格符出现的位置进行截断；

和/或，第四查找子单元，用于查找所述包含有别称匹配对的字符串对中是否包含地名；

第四截断子单元，用于根据地名出现的位置进行截断；

和/或，查询子单元，用于查询预置词库，所述预置词库用于保存用户使用过的查询词；

第五截断子单元，用于根据预置词库中的查询词进行截断。

优选的，还包括：

修正单元，用于对获取的别称匹配对进行修正。

优选的，所述修正单元包括：

统计子单元，用于统计每个别称匹配对出现的次数，根据出现的次数判断获取的别称匹配对的可信度；

过滤子单元，用于过滤掉可信度低于预置阈值的别称匹配对。

优选的，所述修正单元包括：

第一识别子单元，用于查找获取的别称匹配对中是否存在预置的截断关键词；

重新截断子单元，用于根据预置的截断关键词对获取的别称匹配对进行再次截断；

或者，第二识别子单元，用于查找获取的别称匹配对中是否存在预置的过滤关键词；

滤除子单元，用于根据预置的过滤关键词过滤掉错误的别称匹配对。

一种展现搜索结果的方法，包括：

接收用户输入的搜索内容；

获取互联网中各网页上呈现的内容；

从各网页上呈现的内容中获取包含有所述搜索内容的字符串；

根据预置规则从包含有所述搜索内容的字符串中提取包含有所述搜索内容别称的字符串；

对所述包含有所述搜索内容别称的字符串进行截断，获取所述搜索内容的别称；

在搜索结果中，展现包含所述搜索内容的网页及包含所述搜索内容的别称的网页。

优选的，所述预置规则包括信息提取符规则，所述根据预置规则从包含有所述搜索内容的字符串中提取包含有所述搜索内容别称的字符串包括：

判断所述包含有所述搜索内容的字符串中是否包含预置的信息提取符；

如果包含所述关键词，则根据所述信息提取符及所述关键词，确定包含有所述搜索内容别称的字符串。

判断所述包含有所述搜索内容的字符串中是否包含预置的提取关键词；

如果包含所述预置的提取关键词，则根据所述信息提取符及所述关键词，确定包含有所述搜索内容别称的字符串。

优选的，通过以下方式对所述包含有所述搜索内容别称的字符串对进行截断：

查找所述包含有所述搜索内容别称的字符串是否存在预置的截断提示符；如果存在，根据所述预置的截断提示符进行截断；

和/或，查找所述包含有所述搜索内容别称的字符串中，所述搜索内容的首字是否在所述包含有所述搜索内容别称的字符串中出现；如果出现，根据搜索内容的串首字在在所述包含有所述搜索内容别称的字符串中出现的位置进行截断；

和/或，查找所述包含有所述搜索内容别称的字符串中是否存在空格符；如果存在，根据所述空格符出现的位置进行截断；

和/或，查找所述包含有所述搜索内容别称的字符串中是否存在地名；如果存在，根据地名出现的位置进行截断；

优选的，还包括：

对获取到的所述搜索内容的别称进行修正。

一种搜索引擎系统，包括：

接口模块，用于接收用户输入的搜索内容；

内容获取模块，用于获取互联网中各网页上呈现的内容；

查找模块，用于从各网页上呈现的内容中获取包含有所述搜索内容的字符串；

提取模块，用于根据预置规则从包含有所述搜索内容的字符串中提取包含有所述搜索内容别称的字符串；

截断模块，用于对所述包含有所述搜索内容别称的字符串进行截断，获取所述搜索内容的别称；

展现模块，用于在搜索结果中，展现包含所述搜索内容的网页及包含所述搜索内容的别称的网页。

优选的，所述预置规则包括信息提取符规则，所述提取模块包括：

第一判断子模块，用于判断所述包含有所述搜索内容的字符串中是否包含预置的信息提取符；如果包含，再判断所述信息提取符内的字符串中是否包含预置的提取关键词；

第一确定子模块，用于根据所述信息提取符及所述关键词，确定包含有所述搜索内容别称的字符串。

优选的，所述预置规则包括关键词规则，所述提取模块包括：

第二判断子模块，用于判断所述包含有所述搜索内容的字符串中是否包含预置的提取关键词；

第二确定子模块，用于包含所述预置的提取关键词时，根据所述信息提取符及所述关键词，确定包含有所述搜索内容别称的字符串。

优选的，所述截断模块包括：

第一查找子模块，用于查找所述包含有所述搜索内容别称的字符串是否存在预置的截断提示符；

第一截断子模块，用于根据所述预置的截断提示符进行截断；

和/或，第二查找子模块，用于查找所述包含有所述搜索内容别称的字符串对中，所述搜索内容的首字是否在所述包含有所述搜索内容别称的字符串中出现；

第二截断子模块，用于根据搜索内容的串首字在在所述包含有所述搜索内容别称的字符串中出现的位置进行截断；

和/或，第三查找子模块，用于查找所述包含有所述搜索内容别称的字符串中是否存在空格符；

第四截断子模块，用于根据所述空格符出现的位置进行截断；

和/或，第四查找子模块，用于查找所述包含有所述搜索内容别称的字符串中是否存在地名；

第四截断子模块，用于根据地名出现的位置进行截断；

和/或，查询子模块，用于查询预置词库，所述预置词库用于保存用户使用过的查询词；

第五截断子模块，用于根据预置词库中的查询词进行截断。

优选的，还包括：

修正模块，用于对获取到的所述搜索内容的别称进行修正。

一种展现搜索结果的方法，包括：

获取互联网中各网页上呈现的内容；

对所述包含有别称匹配对的字符串对进行截断，获取别称匹配对；

保存获取的别称匹配对，建立别称数据库；

接收用户输入的搜索内容；

查询所述别称数据库，判断是否存在与所述搜索内容匹配的别称；

如果存在，在搜索结果中展现包含所述搜索内容的网页及包含所述搜索内容的别称的网页。

一种搜索引擎系统，包括：

别称数据库，用于保存别称匹配对；所述别称匹配对根据以下方式获取：获取互联网中各网页上呈现的内容，根据预置规则从各网页上呈现的内容中提取包含有别称匹配对的字符串对，对所述包含有别称匹配对的字符串对进行截断，获取别称匹配对；

接口模块，用于接收用户输入的搜索内容；

查询模块，用于查询所述别称数据库，判断是否存在与所述搜索内容匹配的别称；

呈现模块，在搜索结果中展现包含所述搜索内容的网页及包含所述搜索内容的别称的网页。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

首先，本发明可以根据预置规则，从互联网中各网页上呈现的内容中提取包含有别称匹配对的字符串对，并对提取的字符串对进行截断来获取别称匹配对。由于各网页上呈现的内容比链接文本上呈现的文字要丰富的多，因此可以获得更广的数据来源，对于地名以外的其他数据，也可以根据预置合适的规则进行字符串对的提取，进而通过截断来识别出别称匹配对。所以本发明可以更多、更全面地识别出可能出现的别称匹配对，进而有效利用识别出的别称匹配对来提高用户体验，提高数据的利用率。

其次，本发明通过信息提取符规则或关键词规则等提取规则的使用，可以识别出字面是不具有相似度或相似度较低的别称匹配对。通过多种截断规则的结合，可以准确地获得别称匹配对。

再次，通过对获取的别称匹配对的修正，可以进一步提高别称匹配对的准确度。

附图说明

图1是本发明实施例提供的方法的流程图；

图2是本发明实施例提供的第一装置的示意图；

图3是本发明实施例提供的第二装置的示意图；

图4是本发明实施例提供的第三装置的示意图；

图5是本发明实施例提供的第四装置的示意图；

图6是本发明实施例提供的第五装置的示意图；

图7是本发明实施例提供的第六装置的示意图；

图8是本发明实施例提供的第七装置的示意图；

图9是本发明实施例提供的展现搜索结果的方法的流程图；

图10是本发明实施例提供的第一搜索引擎系统的示意图；

图11是本发明实施例提供的第二搜索引擎系统的示意图；

图12是本发明实施例提供的第三搜索引擎系统的示意图；

图13是本发明实施例提供的第四搜索引擎系统的示意图；

图14是本发明实施例提供的另一展现搜索结果的方法的流程图；

图15是本发明实施例提供的第五搜索引擎系统的示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参见图1，本发明实施例提供的获取别称匹配对的方法包括以下步骤：

S101：获取互联网中各网页上呈现的内容；

这里的网页是指互联网中存在的所有网页。可以通过页面抓取及前端页面元素的分析获取网页上呈现的内容，包括但不限于网页的标题、正文摘要、链接文本等。其中，所述内容可以只是文字内容，即网页的标题文本、正文摘要文本、链接文本上呈现的文字内容等。也就是说，对于链接文本而言，只需要获取链接文本上呈现的文字，而不用关心该链接文本指向哪个网站。

S102：根据预置规则从各网页上呈现的内容中提取包含有别称匹配对的字符串对；

S103：对所述包含有别称匹配对的字符串对进行截断，获取别称匹配对。

步骤S102提取出的仅仅是包含有别称匹配对的字符串对，这种字符串对中除了包含别称匹配对外，还可能包含一些前缀、后缀等，例如提取出的字符串对为：(创立了北京大学，北大)，则“创立了”为“北京大学”的前缀，应该将这样的前缀、后缀去掉，也就是要通过步骤S103中的截断，使得最终得到的别称匹配对为(北京大学，北大)。

需要说明的是，为了方便描述，本发明实施例中将提取出的含有别称匹配对的字符串对以及最终获取到的别称匹配对都用( )括起来表示，虽然提取出的含有别称匹配对的字符串对中也可能包含有这样的括号，但是在本发明实施例的表示方法中，最外面一层的( )并不是提取出来的，而是为了方便描述加上去的。

所述预置的规则可以是现有技术中的“相似性”规则，但是该规则无法识别一些字面上不具有相似性或相似性较低的别称匹配对，尽管这样的别称匹配对也很常见，例如，“国家体育场”的别称“鸟巢”，“故宫”的别称“紫禁城”，“水银”的别称“汞”，等。为此，本发明实施例提供了多种预置规则，通过这些预置规则能够识别出字面上不具有相似性或相似性较低的别称匹配对，下面分别进行详细地介绍。

实施例一、所述预置规则可以是信息提取符规则，根据该规则进行提取的步骤可以是：判断网页上呈现的内容中是否包含预置的信息提取符；如果包含所述信息提取符，判断所述信息提取符内的字符串中是否包含预置的关键词；如果包含所述关键词，则根据所述信息提取符及所述关键词确定包含有别称匹配对的字符串对。

其中，所述信息提取符可以包括：

( )，[]，【】，“”，『』，‘’，″″，< >

这些符号通常是起始标识成对出现的，例如左括号为开始，则对应者右括号为结束。通过统计可以发现，包含有别称匹配对的字符串中通常会包括这样的符号，例如网页上呈现的内容中包含原文为：

......创立了北京大学(简称“北大”)......

这句话中包含有别称匹配对(北京大学，北大)，其中简称的部分在( )中给出。因此，本发明实施例中将具有上述特点的符号作为信息提取符。在提取时，首先判断网页上呈现的内容中是否包含这样的信息提取符，但是并不是只要存在这样的信息提取符就一定包含有别称匹配对，例如有些解释性的文字也会用这样的括号来表示，因此在本发明实施例中，如果判断出包含预置的信息提取符，则继续判断是否包含预置的提取关键词。其中提取关键词也可以是根据统计确定的，例如，可以包括但不限于：

简称、旧称、别称、原称、改称、现称、也称、又称、今称、称、全称、原名、别名、旧名、俗名、又名、全名、改名为、更名、易名、又叫、也叫、也就是、原、即。

如果一段内容中既包含了预置的信息提取符，又存在所述预置的提取关键词，则可以确定这段内容中包含有别称匹配对。接下来可以根据所述信息提取符及所述提取关键词确定包含有别称匹配对的字符串对，以括号为信息提取符为例，则可以将从左括号向前至第一个特定标点之间的部分作为字符串1，括号中提取关键词后的内容作为字符串2。

其中，所述特定标点可以为：

，。；—：、/.！∶-

例如，原文为：......1898年，创立了北京大学(简称北大)，......

则根据上述步骤提取出的包含有别称匹配对的字符串对为(创立了北京大学，北大)。

实施例二、所述预置规则可以是提取关键词规则，根据该规则进行提取的步骤可以是：判断网页上呈现的内容中是否包含预置的提取关键词；如果包含所述预置的提取关键词，则根据提取关键词位置及特定标点确定包含有别称匹配对的字符串对。

其中，所述提取关键词可以包括：

又称、又名、俗称、简称，等。

所述特定标点可以包括：

。；—/.！*×— - | ′、＞ _

例如，扫描获取的网页上呈现的内容，从中找到“简称”、“全称”等提取关键词。从提取关键词起始位置向前至第一个特定标点之间的部分作为字符串1，提取关键词向后至第一个特定标点之间的内容作为字符串2。

仍以上述例子为例，原文为：......1898年，创立了北京大学(简称北大)，......

则按照以上步骤提取出的包含有别称匹配对的字符串对为(创立了北京大学，北大)。

根据以上提取规则，可以识别出字面上不具有相似度或相似度较低的别称匹配对。例如，原文为......汞(别称水银)......，则按照以上规则可以提取到含有该别称匹配对的字符串对。

需要说明的是，上述提取规则主要用于从同一网页上呈现的文本内容中提取别称匹配对。在本发明的其他实施例中，也可以预置其他规则来处理原称与别称分别呈现在不同网页上的情况。例如，一个网页上出现了“汞”，另一网页上出现了“水银”，则可以采用对上下文进行分析等方式来识别出这样的别称匹配对。

如前文所述，按照上述两种规则提取出包含有别称匹配对的字符串对后，还需要对所述字符串进行截断，以获取到最终的别称匹配对。其中截断的方法可以使用以下一种或几种的组合：

a)截断提示符截断

提取出的包含有别称匹配对的字符串对中还可能包含有某些符号可以作为截断提示符，例如：

(他们发起成立了“国民抗敌协会”，抗协)

该包含有别称匹配对的字符串对中包含有“”，而该截断提示符之间的内容则通常为正确的原称或别称，据此截断结果为：

(国民抗敌协会，抗协)

其中，截断提示符可以包括：

( )，『』，【】，“”，‘’，″″，「」

这种截断方法的可信度较高(截断后即可得到比较准确的别称匹配对)，因此如果包含有别称匹配对的字符串对满足该截断方法，则可以不再使用其他截断方法进行截断。

b)首字截断

这种方法通常用于全简称的截断(通常，简称占别称的一大部分)，可以在包含有别称匹配对的字符串对中，查找字符串2中首字在字符串1中出现的位置(设字符串1中包含原称，字符串2为简称)，根据该位置进行截断，将字符串1中该首字之前的部分去掉。例如：

提取出的包含有别称匹配对的字符串对为：

(总则经北京大学，北大)

则利用该首字截断方法，可以将“北”前的“总则经”去掉，最终得到的别称匹配对为：

(北京大学，北大)

c)空格截断

对于中文来讲，由于空格符一般应属于分隔符之一，因此一般不允许汉字之间出现空格符，但是如果汉字之间出现了空格符，则应该进行截断。例如：

原文为：

新华社报道北京大学(简称北大)......

则按照本发明实施例所述的提取规则提取出的包含有别称匹配对的字符串对为：

(新华社报道北京大学，北大)

也就是包含有“北京大学”的字符串中出现了空格符，则应该将该空格符之前的部分去掉，因此最终得到的别称匹配对为：

(北京大学，北大)

通常，如果提取的包含有别称匹配对的字符串对，既不满足信息提取符截断，又不满足首字截断，则可以尝试使用这种空格符截断方式。但是这种截断方式的可信度较低，可能会出现截断后仍然存在前缀或后缀的情况，因此，使用该方法进行截断后，还可以结合其他截断方式进行截断。

d)地名截断

别称匹配对中包含了大量的地名别称匹配对，因此以城市名称等地名开头的别称匹配对较多，对于这类匹配对如下进行截断：若提取出的包含别称匹配对的字符串对中，包含城市名称等地名，则直接将该地名位置之前的部分全部去掉。

这种截断方式的可信度也比较高，如果提取出的包含别称匹配对的字符串对满足这种截断方式，则可以不必再利用其他的截断方式进行截断。

e)词库截断

由于网页呈现的内容中出现的别称匹配对的情况非常复杂，即使制定了上述多种截断方式，但仍有很多的情况对于上述截断方式均不满足，甚至造成大量的截断错误。因此本发明实施例还可以利用预置的词库(如搜狗查询词库等)，对提取出的包含别称匹配对的字符串对进行截断。当然，由于词库质量的影响等原因，截断后也可能会产生一些错误。

以上对本发明实施例提供的识别别称匹配对的方法及其具体实现方式进行了详细地介绍。但是，从前文地分析种可以看出，根据上述提取及截断地方法获取的别称匹配对可能会存在一些错误，因此，在本发明的优选实施例中，还可以包括对获取到的别称匹配对进行修正的步骤。修正的方法有多种，下面介绍基于频率及基于关键词的修正方法，仅用于举例说明，而不应看作是对本发明的限制。

实施例三、基于频率的修正方法

由于经过截断后的别称匹配对中会存在大量的重复，根据别称匹配对出现的次数，可以在一定程度上判断其可信度。因此基于频率的修正方法可以按照以下步骤进行：对别称匹配对进行滤重，并统计每个别称匹配对出现的次数，根据所述出现的次数判断获取的别称匹配对的可信度；过滤掉可信度低于预置阈值的别称匹配对。

在实际应用中，根据用户输入习惯的规律可以发现，用户通过使用括号等信息提取符进行别称的输入，或仅通过使用关键词进行别称的输入时，通常会产生不同的上下文关联性。因此，针对不同的提取规则，本发明实施例采用不同的修正策略，下面分别进行介绍。

(1)对于信息提取符规则，可以采用如下策略：

①可以统计信息提取符中不同的提取关键词(如简称、又名等)对别称匹配对正确率的影响，对由不同的关键词提取出来的别称匹配对可以设定不同的阈值；

②可以统计不同截断方式的可信程度，对于不同的截断方式产生的别称匹配对可以设定不同的阈值。例如，词库截断的可信度较低，则对这种截断方式设定较高的阈值，也就是说，采用词库截断方式获得的别称匹配对，其可信度要达到较高的值时，才被认为是可信的，否则可能会过滤掉。

③如果某别称匹配对可以根据不同的提取规则或不同的关键词产生，则认为该别称匹配对的可信度较高，可以使用较低的阈值，否则使用较高的阈值。

(2)对于关键词规则，可以采用如下策略：

①如果某别称匹配对可以根据不同的提取规则或不同的关键词产生，则认为该别称匹配对的可信度较高，可以使用较低的阈值，否则使用较高的阈值。

②不同的提取关键词对别称匹配对的可信度影响较小，仅此无需对此区别对待。

实施例四、基于修正关键词的修正方法

通过对存在错误的别称匹配对的分析可以发现，通过设定一些用于修正的关键词可以在一定程度上将这些错误进行修正。其中，基于修正关键词的修正包括对别称匹配对的再次截断及对错误匹配对的滤除两种情况，使用的修正关键词有所不同，本发明实施例中，将用于再次截断的关键词称为截断关键词，将用于错误滤除的关键词称为滤除关键词。同样，针对不同的提取规则，也可以采用不同的修正关键词及修正规则，下面分别进行介绍。

(1)对于信息提取符规则，可以采用如下修正关键词及修正规则：

①截断关键词：

主要是头部截断关键词：^中国)，^上海)，^北京)，^深圳)，^的。

由于使用了地名作为截断方式，因此会产生大量以地名开头的别称匹配对，但对于一些国际性公司，其全称可能是“××(中国)有限公司”等，则，利用地名截断方式产生的别称匹配对将是：

(中国)有限公司，公司)

此时，可以使用该截断关键词进行再次截断，结果为：

(有限公司，公司)

②滤除关键词：

滤除关键词的使用主要针对以下情况：网页呈现的内容中通常会有这样的描述：“......台湾固网股份有限公司(以下简称本公司)......”，这样，按照前文所述的提取及截断规则得到的别称匹配对为：

(台湾固网股份有限公司，本公司)

显然，这是错误的，因此应该将这种错误的匹配对滤除。

在实际应用中，根据滤除关键词可能出现的位置，还可以分为以下几种：

a)滤除关键词：片名、帖子、本公司、甲方、乙方、元京、功能主治。

在获得的别称匹配对中，无论在何出现了这种滤除关键词，都将该别称匹配对滤除。

b)头部滤除关键词：本

在获得的别称匹配对中，如果原称或别称的头部出现了头部滤除关键词，则将该别称匹配对滤除。例如，网页中“本府”，“本校”，“本所”，“本中心”......这样的简称很常见，因此可能会发现这样的别称匹配对：

(宜兰县政府，本府)，(宜兰县教育网路中心，本中心)......

这样的匹配对将直接从结果中删除。

c)尾部滤除关键词：我公司、的

在获得的别称匹配对中，如果原称或别称的尾部出现了尾部滤除关键词，则将该别称匹配对滤除。

d)黑名单：黄、叶、司、未、陈、标准、大学、不明、电、一、三、号、卡、林、协议、公司、有限公司、中信、系统、股份有限公司、委员会、我公司、技术、贴、协会、王、国、张、中、新、小、李、集团、组织、大、产品、五、爱、戴、高、机构、城区、天、公主、上、山、酒店、杨、规定、信证、论坛

由于截断过度，常常产生黑名单中的错误数据，也就是说提取出的别称或者原称与黑名单的数据完全一致，如：

(华天酒店，酒店)

这样的数据实际上是没有意义的，因此，直接将这样的匹配对将从结果中删除。

(2)对于提取关键词规则，可以采用如下修正关键词及修正规则

①截断关键词：

a)前向截断关键词：因此，俗称，简称，又名，故名，原称，叫做，之为。

例如：网页呈现的内容中的原文为：......因此武装直升机又被称为“坦克杀手”......

则，获得的别称匹配对为：(因此武装直升机，坦克杀手)

对于这种情况，可以将前向截断关键词及其之前的部分去掉，剩下的部分作为修正后的别称匹配对，如(武装直升机，坦克杀手)

b)头部截断关键词：^故，^称，^叫。

例如：网页呈现的内容中的原文为：......故麋鹿又称大卫鹿......

则，获得的别称匹配对为：(故麋鹿，大卫鹿)

对于这种情况，可以将以这些关键字开头的名称中的前缀关键字去掉，如(麋鹿，大卫鹿)。

c)尾部截断关键词：被，也，通常，经常，常常，常，又，后，就。

例如：网页呈现的内容中的原文为：......念珠菌性阴道炎常常又称霉菌性阴道炎......

则，获得的别称匹配对为：(念珠菌性阴道炎常常，霉菌性阴道炎)

对于这种情况，可以删除类似的后缀，匹配对保留，如(念珠菌性阴道炎，霉菌性阴道炎)

②滤除关键词

a)滤除关键词：当地人，这，此，上述，它为，他为，她为，他们，我们，人们，民间

例如：网页呈现的内容中的原文为：......民间俗称小白条鱼学名是什么......

则，获得的别称匹配对为：(民间，小白条鱼)

显然，这种数据无意义，因此将其删除。

b)头部滤除关键词：^本，^该

例如，(宜兰县教育网路中心，本中心)无意义，则直接删除。

c)黑名单：基金、一般、或、公司、课程、国家、变更、人、大家、下、而、国内、年、交易、台湾、英文名、企业、国外、或者、下均、地方、简介、后面、可、正股、股份、了、后世、com、古人、天、甲方、全称、北方、号、学校、详细信息、技术、垃圾、个、亦、如、项目、呼、而已、现、却、记录、及、西方、博客、和、无、型、南、今、子、家、二、则、点、色、李、股、由、山、黄、陈、床、白、特性、五、习、俗

与信息提取符规则的提取时类似，由于截断过度，常常产生黑名单中的错误数据，也就是说提取出的别称或者原称与黑名单的数据完全一致，如：

网页呈现的内容中的原文为：......一般又称醉心花......

则，获得的别称匹配对为：(一般，醉心花)

显然，这样的数据实际上是没有意义的，因此，直接将这样的匹配对将从结果中删除。

与本发明实施例提供的识别别称的方法相对应，本发明实施例还提供了一种识别别称的装置，参加图2，该装置包括：

内容获取单元U201，用于获取网页上呈现的内容；

提取单元U202，用于根据预置规则从网页上呈现的内容中提取包含有别称匹配对的字符串对；

截断单元U203，用于对所述包含有别称匹配对的字符串对进行截断，获取别称匹配对。

内容获取单元U201通过抓去或页面分析等方式，获取网页上呈现的内容，包括网页标题、正文摘要、链接文本等信息；然后提取单元U202根据预置规则，从获取的网页上呈现的内容中提取包含有别称匹配对的字符串对；再由截断单元U203对所述包含有别称匹配对的字符串对进行截断，并最终获取到别称匹配对。

其中，可以采用多种提取规则从获取的网页上呈现的内容中提取包含有别称匹配对的字符串对，当所述提取规则为信息提取符规则时，参见图3，提取单元U302包括以下子单元：

第一判断子单元U3021，用于判断网页上呈现的内容中是否包含预置的信息提取符；如果包含，再判断所述信息提取符内的字符串中是否包含预置的提取关键词；

第一确定子单元U3022，用于根据所述信息提取符及所述关键词确定包含有别称匹配对的字符串对。

其中，所述信息提取符可以包括：

( )，[]，【】，“”，『』，‘’，″″，< >

参见图4，当所述提取规则为提取关键词规则时，提取单元U402包括以下子单元：

第二判断子单元U4024，用于判断网页上呈现的内容中是否包含预置的提取关键词；

第二确定子单元U4025，用于包含所述预置的提取关键词时，根据提取关键词位置及特定标点确定包含有别称匹配对的字符串对。

为满足实际应用中的各种复杂情况，本发明实施例还提供了多种截断方式，可以根据实际情况选择合适的截断方式，或者是多种截断方式的组合。因此，参见图5，截断单元U503可以包括以下子单元：

第一查找子单元U5030，用于查找所述包含有别称匹配对的字符串对是否包含预置的截断提示符；

第一截断子单元U5031，用于根据所述预置的截断提示符进行截断。

和/或，第二查找子单元U5032，用于查找所述包含有别称匹配对的字符串对中，一字符串的首字是否在另一字符串中出现；

第二截断子单元U5033，用于根据一字符串首字在另一字符串中出现的位置进行截断；

和/或，第三查找子单元U5034，用于查找所述包含有别称匹配对的字符串对中是否包含空格符；

第四截断子单元U5035，用于根据所述空格符出现的位置进行截断；

和/或，第四查找子单元U5036，用于查找所述包含有别称匹配对的字符串对中是否包含地名；

第四截断子单元U5037，用于根据地名出现的位置进行截断；

和/或，查询子单元U5038，用于查询预置词库，所述预置词库用于保存用户使用过的查询词；

第五截断子单元U5039，用于根据预置词库中的查询词进行截断。

在实际应用中，按照上述提取规则及截断方式获得的别称匹配对可能会存在一些错误，如截断地不够，或过分截断等，因此，参见图6，在本发明的优选实施例中，该装置还可以包括：

修正单元U604，用于对获取的别称匹配对进行修正。

可以采用基于频率或基于修正关键词等方式进行修正，对于基于频率的方式，该修正单元U604可以包括以下子单元：

统计子单元U6041，用于统计每个别称匹配对出现的次数，根据出现的次数判断获取的别称匹配对的可信度；

过滤子单元U6042，用于过滤掉可信度低于预置阈值的别称匹配对。

对于基于修正关键词的修正方式，修正关键词可以分为截断关键词和过滤关键词两种，参见图7，修正单元U704可以包括以下子单元：

第一识别子单元U7041，用于查找获取的别称匹配对中是否存在预置的截断关键词；

重新截断子单元U7042，用于根据预置的截断关键词对获取的别称匹配对进行再次截断。

参见图8，修正单元U804也可以包括以下子单元：

第二识别子单元U8043，用于查找获取的别称匹配对中是否存在预置的过滤关键词；

滤除子单元U8044，用于根据预置的过滤关键词过滤掉错误的别称匹配对。

其中，对于这两种修正方式，针对不同的提取规则可以制定不同的修正策略，方法的实施例中已经有详细描述，考虑到篇幅，这里不再赘述。

上述介绍了如何获取别称匹配对的方法及装置，在本发明的其他实施例中，还可以在搜索引擎展现搜索结果的过程中，利用上述方法获取用户输入的搜索内容的别称，然后在搜索结果中展现包含所述搜索内容的网页及包含所述搜索内容的别称的网页。因此，本发明还提供了一种在搜索引擎中展现搜索结果的方法，参见图9，该方法包括以下步骤：

S901：接收用户输入的搜索内容；

S902：获取互联网中各网页上呈现的内容；

S903：从各网页上呈现的内容中获取包含有所述搜索内容的字符串；

S904：根据预置规则从包含有所述搜索内容的字符串中提取包含有所述搜索内容别称的字符串；

S905：对所述包含有所述搜索内容别称的字符串进行截断，获取所述搜索内容的别称；

S906：在搜索结果中，展现包含所述搜索内容的网页及包含所述搜索内容的别称的网页。

其中，在获取搜索内容的别称的过程中，相当于已知了原称，因此可以首先从各网页上呈现的内容中获取包含有所述搜索内容的字符串，然后再根据与前文所述的预置规则来提取包含搜索内容别称的字符串，然后再对所述包含有所述搜索内容别称的字符串进行截断，即可获取所述搜索内容的别称；这样在搜索结果中，便可以展现包含所述搜索内容的网页及包含所述搜索内容的别称的网页了。

与获取别称匹配对的方法相似，获取搜索内容的别称时，也可以采用信息提取符规则或关键词规则来进行提取。其中，按照信息提取符规则，可以如下进行：

按照关键词规则，可以如下进行：

关于截断方式，同样与前文所述的截断方式相似，可以有以下几种方式：

同样，为了保证获取的别称的准确性，还可以包括对获取到的所述搜索内容的别称进行修正的步骤。具体的修正方法可与前文所述相同。

以上各具体的提取规则及截断方式可参照前文所述各部分对应的例子，考虑到篇幅，这里不再赘述。

与该展现搜索结果的方法相对应，本发明实施例还提供了一种搜索引擎系统，参见图10，该搜索引擎系统包括以下模块：

接口模块U1001，用于接收用户输入的搜索内容；

内容获取模块U1002，用于获取互联网中各网页上呈现的内容；

查找模块U1003，用于从各网页上呈现的内容中获取包含有所述搜索内容的字符串；

提取模块U1004，用于根据预置规则从包含有所述搜索内容的字符串中提取包含有所述搜索内容别称的字符串；

截断模块U1005，用于对所述包含有所述搜索内容别称的字符串进行截断，获取所述搜索内容的别称；

展现模块U1006，用于在搜索结果中，展现包含所述搜索内容的网页及包含所述搜索内容的别称的网页。

当所述预置规则为信息提取符规则时，参见图11，提取模块U1104可以包括：

第一判断子模块U11041，用于判断所述包含有所述搜索内容的字符串中是否包含预置的信息提取符；如果包含，再判断所述信息提取符内的字符串中是否包含预置的提取关键词；

第一确定子模块U11042，用于根据所述信息提取符及所述关键词，确定包含有所述搜索内容别称的字符串。

当所述预置规则为关键词规则时，参见图12，提取模块U1204包括：

第二判断子模块U12041，用于判断所述包含有所述搜索内容的字符串中是否包含预置的提取关键词；

第二确定子模块U12042，用于包含所述预置的提取关键词时，根据所述信息提取符及所述关键词，确定包含有所述搜索内容别称的字符串。

其中，图11中的接口模块U1101、内容获取模块U1102、查找模块U1103、截断模块U1105、展现模块U1106、图12中的接口模块U1201、内容获取模块U1202、查找模块U1203、截断模块U1205、展现模块U1206，与图10中的接口模块U1001、内容获取模块U1002、查找模块U1003、截断模块U1005、展现模块U1006相同。

参见图13，截断模块U1305可以包括：

第一查找子模块U13050，用于查找所述包含有所述搜索内容别称的字符串是否存在预置的截断提示符；

第一截断子模块U13051，用于根据所述预置的截断提示符进行截断；

和/或，第二查找子模块U13052，用于查找所述包含有所述搜索内容别称的字符串对中，所述搜索内容的首字是否在所述包含有所述搜索内容别称的字符串中出现；

第二截断子模块U13053，用于根据搜索内容的串首字在在所述包含有所述搜索内容别称的字符串中出现的位置进行截断；

和/或，第三查找子模块U13054，用于查找所述包含有所述搜索内容别称的字符串中是否存在空格符；

第四截断子模块U13055，用于根据所述空格符出现的位置进行截断；

和/或，第四查找子模块U13056，用于查找所述包含有所述搜索内容别称的字符串中是否存在地名；

第四截断子模块U13057，用于根据地名出现的位置进行截断；

和/或，查询子模块U13058，用于查询预置词库，所述预置词库用于保存用户使用过的查询词；

第五截断子模块U13059，用于根据预置词库中的查询词进行截断。

为保证获取到的别称的准确性，该搜索引擎还可以包括：

修正模块U1307，用于对获取到的所述搜索内容的别称进行修正。

其中，图13中的接口模块U1301、内容获取模块U1302、查找模块U1303、提取模块U1304、展现模块U1306，与图10中的接口模块U1001、内容获取模块U1002、查找模块U1003、提取模块U1004、展现模块U1006相同。

上述展现搜索结果的方法中，需要在接收到用户输入的搜索内容后，首先获取互联网上各网页中呈现的内容，考虑到该过程所需的时间可能会比较长，因此，本发明实施例还提供了一种展现搜索结果的方法，该方法中，将获取的别称匹配对进行保存，形成别称数据库，搜索引擎可以通过查询数据库来完成用户的搜索内容是否存在别称的判断，节省了时间。参见图14，该方法包括以下步骤：

S1401：获取互联网中各网页上呈现的内容；

S1402：根据预置规则从各网页上呈现的内容中提取包含有别称匹配对的字符串对；

S1403：对所述包含有别称匹配对的字符串对进行截断，获取别称匹配对；

S1404：保存获取的别称匹配对，建立别称数据库；

S1405：接收用户输入的搜索内容；

S1406：查询所述别称数据库，判断是否存在与所述搜索内容匹配的别称；

S1407：如果存在，在搜索结果中展现包含所述搜索内容的网页及包含所述搜索内容的别称的网页。

该方法与前文所述的获取别称匹配对的方法相比只增加了步骤S1404到S1407，其他的部分均相同，因此相应的内容这里不再赘述。

该展现搜索结果的方法中，可以在获取到别称匹配对后，将别称匹配对保存起来，形成别称数据库。搜索引擎只需要加载该别称数据库，这样，当用户在搜索引擎中输入搜索内容时，便可以首先查询该别称数据库，如果用户输入的搜索内容存在别称，则在可以在搜索结果中，既可以展现包含有搜索内容的网页，又可以展现包含有其别称的网页，使得用户可以尽可能全面地获得相关信息。

与该展现搜索结果的方法相对应，本发明实施例还提供了另外一种搜索引擎系统，参见图15，该搜索引擎系统包括以下模块：

别称数据库U1501，用于保存别称匹配对；所述别称匹配对根据以下方式获取：获取互联网中各网页上呈现的内容，根据预置规则从各网页上呈现的内容中提取包含有别称匹配对的字符串对，对所述包含有别称匹配对的字符串对进行截断，获取别称匹配对；

接口模块U1502，用于接收用户输入的搜索内容；

查询模块U1503，用于查询所述别称数据库，判断是否存在与所述搜索内容匹配的别称；

呈现模块U1504，在搜索结果中展现包含所述搜索内容的网页及包含所述搜索内容的别称的网页。

以上对本发明所提供的获取别称匹配对的方法及装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种获取别称匹配对的方法，其特征在于，包括：

获取互联网中各网页上呈现的内容；

2.根据权利要求1所述的方法，其特征在于，所述各网页上呈现的内容是各网页上呈现的文字内容。

3.根据权利要求1所述的方法，其特征在于，所述预置规则包括信息提取符规则，所述提取包含有别称匹配对的字符串对包括：

判断各网页上呈现的内容中是否包含预置的信息提取符；

4.根据权利要求1所述的方法，其特征在于，所述预置规则包括关键词规则，所述提取包含有别称匹配对的字符串对包括：

判断各网页上呈现的内容中是否包含预置的提取关键词；

5.根据权利要求1所述的方法，其特征在于，通过以下方式对所述包含有别称匹配对的字符串对进行截断：

6.根据权利要求1至5任意一项所述的方法，其特征在于，还包括：

对获取的别称匹配对进行修正。

7.根据权利要求6所述的方法，其特征在于，所述对获取的别称匹配对进行修正包括：

过滤掉可信度低于预置阈值的别称匹配对。

8.根据权利要求6所述的方法，其特征在于，所述对获取的别称匹配对进行修正包括：

9.一种获取别称匹配对的装置，其特征在于，包括：

内容获取单元，用于获取互联网中各网页上呈现的内容；

10.根据权利要求9所述的装置，其特征在于，所述提取单元包括：

11.根据权利要求9所述的装置，其特征在于，所述提取单元包括：

12.根据权利要求9所述的装置，其特征在于，所述截断单元包括：

第四截断子单元，用于根据地名出现的位置进行截断；

第五截断子单元，用于根据预置词库中的查询词进行截断。

13.根据权利要求9至12任意一项所述的装置，其特征在于，还包括：

修正单元，用于对获取的别称匹配对进行修正。

14.根据权利要求13所述的装置，其特征在于，所述修正单元包括：

15.根据权利要求13所述的装置，其特征在于，所述修正单元包括：

16.一种展现搜索结果的方法，其特征在于，包括：

接收用户输入的搜索内容；

获取互联网中各网页上呈现的内容；

17.根据权利要求16所述的方法，其特征在于，所述预置规则包括信息提取符规则，所述根据预置规则从包含有所述搜索内容的字符串中提取包含有所述搜索内容别称的字符串包括：

18.根据权利要求16所述的方法，其特征在于，所述预置规则包括信息提取符规则，所述根据预置规则从包含有所述搜索内容的字符串中提取包含有所述搜索内容别称的字符串包括：

19.根据权利要求16所述的方法，其特征在于，通过以下方式对所述包含有所述搜索内容别称的字符串对进行截断：

20.根据权利要求16所述的方法，其特征在于，还包括：

对获取到的所述搜索内容的别称进行修正。

21.一种搜索引擎系统，其特征在于，包括：

接口模块，用于接收用户输入的搜索内容；

内容获取模块，用于获取互联网中各网页上呈现的内容；

22.根据权利要求21所述的系统，其特征在于，所述预置规则包括信息提取符规则，所述提取模块包括：

23.根据权利要求21所述的系统，其特征在于，所述预置规则包括关键词规则，所述提取模块包括：

24.根据权利要求21所述的系统，其特征在于，所述截断模块包括：

第四截断子模块，用于根据地名出现的位置进行截断；

第五截断子模块，用于根据预置词库中的查询词进行截断。

25.根据权利要求21所述的系统，其特征在于，还包括：

修正模块，用于对获取到的所述搜索内容的别称进行修正。

26.一种展现搜索结果的方法，其特征在于，包括：

获取互联网中各网页上呈现的内容；

保存获取的别称匹配对，建立别称数据库；

接收用户输入的搜索内容；

27.一种搜索引擎系统，其特征在于，包括：

接口模块，用于接收用户输入的搜索内容；