CN102750282B

CN102750282B - 同义词模板的挖掘方法和装置以及同义词挖掘方法和装置

Info

Publication number: CN102750282B
Application number: CN201110098245.9A
Authority: CN
Inventors: 徐文智
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2011-04-19
Filing date: 2011-04-19
Publication date: 2014-10-22
Anticipated expiration: 2031-04-19
Also published as: CN102750282A

Abstract

本发明提供了一种同义词模板的挖掘方法和装置以及同义词的挖掘方法和装置，其中同义词挖掘的方法包括：利用预先设置的同义词模板，查找网页中的同义标记符；在所述网页中同义标记符前后的设定距离范围内，按照所述同义词模板中所述同义标记符对应的同义词对中各词语的边界信息，抽取出同义词对；其中，所述同义词模板包括：同义标记符和同义词对中词语的边界信息。通过本发明可以大大提高同义词挖掘的效率。

Description

同义词模板的挖掘方法和装置以及同义词挖掘方法和装置

【技术领域】

本发明涉及计算机技术领域，特别涉及一种同义词模板的挖掘方法和装置以及同义词挖掘的方法和装置。

【背景技术】

当用户在使用搜索引擎进行搜索时，为了能够将与用户所输入搜索请求(query)的同义词相匹配的网页也包含在搜索结果中召回，会用到基于同义词的query扩展，即在利用query进行搜索的同时也利用query的同义词进行搜索。为了在搜索引擎中应用该技术，同义词的挖掘是非常重要的基础工作。

现有的同义词挖掘方式通过计算语料库中各词语之间的相关概率来进行同义词挖掘，但这种方式需要对语料库中的词语两两进行计算，效率很低。

【发明内容】

有鉴于此，本发明提供了一种同义词模板的挖掘方法和装置以及同义词挖掘方法和装置，以便于提高同义词挖掘的效率。

具体技术方案如下：

一种同义词模板的挖掘方法，所述同义词模板包括：同义标记符和同义词对中同义词的边界信息；该方法包括：

A、获取预设的种子词对；

B、将所述种子词对在网页中设定上下文范围内的词语或符号作为候选标记符，并记录各候选标记符的出现次数以及所述种子词对中同义词在所述网页中的边界信息；

C、基于记录的各候选标记符的出现次数为各候选标记符打分，选择打分值满足预设打分阈值的候选标记符并记录为所述同义词模板中的同义标记符；

D、将所述同义标记符对应的所述边界信息记录在所述同义词模板中。

具体地，所述种子词对中其中一个词语P1为所述网页的主题词，另一个词语P2为所述主题词的同义词；

所述步骤B具体为：将所述P2在所述网页中设定上下文范围内的词语或符号作为候选标记符，并记录各候选标记符的出现次数以及所述P2的边界信息。

或者，所述步骤B具体为：

确定所述种子词对中两词语P1和P2之间的距离在预设距离范围内时所在的网页部分，将该网页部分中种子词对的设定上下文范围内的词语或符号作为候选标记符，并记录各候选标记符的出现次数以及所述P1和所述P2在所述网页部分中的边界信息。

较优地，在所述记录各候选标记符的出现次数之前，该方法还包括：将包含在预设的停用符表中的候选标记符过滤掉。

其中，所述同义标记符包括以下词语中的至少一种：“简称”、“全称”、“即”、“缩写”；或者，

包括以下符号中的至少一种：括号、“viz”。

更优地，在所述为各候选标记符打分时进一步结合各候选标记符出现在所述网页中的位置。

所述同义词模板中进一步包括：同义词对中同义词相对于所述同义标记符的位置信息；

所述步骤B中进一步记录所述P2相对于所述候选标记符的位置信息；

所述步骤D中进一步将所述同义标记符对应的所述位置信息记录在所述同义词模板中。

或者，所述同义词模板中进一步包括：同义词对中同义词相对于所述同义标记符的位置信息；

所述步骤B中进一步记录所述P1和所述P2相对于所述候选标记符的位置信息；

其中，所述位置信息包括：同义词相对于同义标记符的方向信息，和/或，同义词相对于同义标记符的距离信息。

所述同义词模板存储在数据库中，所述同义标记符存储为索引，指向对应的边界信息。

一种同义词挖掘的方法，该方法包括：

A、利用预先设置的同义词模板，查找网页中的同义标记符；

B、在所述网页中同义标记符前后的设定距离范围内，按照所述同义词模板中所述同义标记符对应的同义词对中各词语的边界信息，抽取出同义词对；

其中，所述同义词模板包括：同义标记符和同义词对中词语的边界信息。

其中，所述同义词模板采用人工方式预先设置在数据库中，或者，采用上述同义词模板的挖掘方法预先挖掘并记录在数据库中。

当所述同义词模板采用人工方式预先设置时，所述边界信息包括：具体的上下文边界或边界确定策略。

如果所述边界信息包括边界确定策略，则所述步骤B具体包括：

在所述网页中同义标记符前后的设定距离范围内，计算除同义标记符之外其他各词语之间的匹配度，抽取出两个词语Q1和Q2构成同义词对，其中Q2覆盖Q1中所有的字，且在Q1和Q2之间具有最大的匹配度基础上保证Q2最短。

所述步骤B具体包括：

在所述网页中同义标记符前后的设定距离范围内，按照同义模板中同义标记符对应的边界信息，抽取出所述网页的主题词对应的同义词，记录由所述主题词和抽取出的同义词构成的同义词对。

或者，所述步骤B具体包括：

在所述网页中同义标记符前后的设定距离范围内，按照同义模板中同义标记符对应的边界信息，抽取出满足该边界信息的两个词语构成同义词对。

更优地，在所述步骤B之后还包括：

C、对抽取出的同义词对进行以下所列过滤处理中的任一或任意组合：

将所述同义词对中来源网页数目小于预设的数目阈值N1的同义词对过滤掉，N1为预设的正整数；

将其中任一个词语在搜索日志中的出现次数小于预设的次数阈值N2的同义词对过滤掉，N2为预设的正整数；

如果将某同义词对中两同义词重叠的部分删除后得到的词对与其他同义词对相同，则将所述某同义词对过滤掉；以及，

将利用同义词对进行搜索得到的搜索结果数量小于预设的数量阈值N5的同义词对过滤掉，N5为预设的正整数。

较优地，所述同义词模板中进一步包括：同义词对中同义词相对于所述同义标记符的位置信息，则在所述步骤B中抽取同义词对时，进一步结合步骤A查找到的同义标记符在所述同义词模板中对应的所述位置信息。

所述同义标记符包括以下词语中的至少一种：“简称”、“全称”、“即”、“缩写”；或者，

包括以下符号中的至少一种：括号、“viz”。

一种同义词模板的挖掘装置，所述同义词模板包括：同义标记符和同义词对中同义词的边界信息；该装置包括：种子词对获取单元、候选标记符确定单元、信息记录单元和标记符确定单元；

所述种子词对获取单元，用于获取预设的种子词对；

所述候选标记符确定单元，用于将所述种子词对在网页中设定上下文范围内的词语或符号确定为候选标记符；

所述信息记录单元，用于记录各候选标记符的出现次数以及所述种子词对中同义词在所述网页中的边界信息；将所述标记符确定单元选择的候选标记符记录为所述同义词模板中的同义标记符，将所述同义标记符对应的所述边界信息记录在所述同义词模板中；

所述标记符确定单元，用于基于所述信息记录单元记录的各候选标记符的出现次数为各候选标记符打分，选择打分值满足预设打分阈值的候选标记符。

具体地，所述种子词对中其中一个词语为P1为所述网页的主题词，另一个词语P2为所述主题词的同义词；

所述候选标记符确定单元具体将所述P2在所述网页中设定上下文范围内的词语或符号作为候选标记符；

所述信息记录单元记录的边界信息为所述P2的边界信息。

或者，所述候选标记符确定单元具体确定所述种子词对中两词语P1和P2之间的距离在预设距离范围内时所在的网页部分，将该网页部分中种子词对的设定上下文范围内的词语或符号作为候选标记符；

所述信息记录单元记录的边界信息为所述P1和所述P2在所述网页内容中的边界信息。

更进一步地，该装置还包括：过滤处理单元，用于将所述候选标记符确定单元得到的候选标记符中，包含在预设的停用符表中的候选标记符过滤掉。

包括以下符号中的至少一种：括号、“viz”。

较优地，所述标记符确定单元在为各候选标记符打分时进一步结合各候选标记符出现在所述网页中的位置。

更优地，所述同义词模板中进一步包括：同义词对中同义词相对于所述同义标记符的位置信息；

所述信息记录单元，还用于记录所述P2相对于所述候选标记符的位置信息，将所述同义标记符对应的所述位置信息记录在所述同义词模板中。

或者，所述信息记录单元，还用于记录所述P1和所述P2相对于所述候选标记符的位置信息，将所述同义标记符对应的位置信息记录在所述同义词模板中。

另外，该装置还包括：数据库，用于存储所述同义词模板；

所述信息记录单元将所述同义标记符存储为索引，指向对应的边界信息。

一种同义词挖掘的装置，该装置包括：标记符匹配单元和同义词对抽取单元；

所述标记符匹配单元，用于利用预先设置的同义词模板，查找网页中的同义标记符；

所述同义词对抽取单元，用于在所述网页中所述标记符匹配单元查找出的同义标记符前后的设定距离范围内，按照所述同义词模板中所述同义标记符对应的同义词对中各词语的边界信息，抽取出同义词对；

所述同义词模板包括：同义标记符和同义词对中词语的边界信息。

其中，所述同义词模板采用人工方法预先设置在数据库中，或者，由上述同义词模板的挖掘装置预先挖掘并记录在数据库中。

如果所述边界信息包括边界确定策略，则所述同义词对抽取单元具体包括：匹配度计算子单元和词对抽取子单元；

所述匹配度计算子单元，用于在所述网页中所述标记符匹配单元查找出的同义标记符前后的设定距离范围内，计算除所述同义标记符之外其他各词语之间的匹配度；

所述词对抽取子单元，用于根据所述匹配度计算子单元的计算结果，抽取出两个词语Q1和Q2构成同义词对，其中Q2覆盖Q1中所有的字，且在Q1和Q2之间具有最大的匹配度基础上保证Q2最短。

所述同义词对抽取单元在所述网页中同义标记符前后的设定距离范围内，按照同义模板中同义标记符对应的边界信息，抽取出所述网页的主题词对应的同义词，由所述主题词和抽取出的同义词构成同义词对。

或者，所述同义词对抽取单元在所述网页中同义标记符前后的设定距离范围内，按照同义模板中同义标记符对应的边界信息，抽取出满足该边界信息的两个词语构成同义词对。

较优地，该装置还包括：过滤处理单元，用于对所述同义词对抽取单元抽取出的同义词对进行以下所列过滤处理中的任一或任意组合：

所述同义词对抽取单元在抽取同义词对时，进一步结合所述同义标记符在所述同义词模板中对应的所述位置信息。

包括以下符号中的至少一种：括号、“viz”。

由以上技术方案可以看出，本发明建立包含同义标记符和同义词对中同义词的边界信息的同义词模板，并利用该同义词模板从网页中抽取同义词对，也就是说，在挖掘同义词的过程中仅需要利用预先建立的同义词模板与网页内容进行匹配，相比较现有技术中计算网页中两两词语的相关概率的方式，大大提高了同义词挖掘的效率。

【附图说明】

图1为本发明实施例一提供的对普通网页进行同义词挖掘的方法流程图；

图2为本发明实施例二提供的针对知识类网页进行同义词模板挖掘的方法流程图；

图3为本发明实施例三提供的针对知识类网页进行同义词挖掘的方法流程图；

图4为本发明实施例四提供的针对普通网页进行同义词模板挖掘的方法流程图；

图5为本发明实施例五提供的同义词模板的挖掘装置结构图；

图6为本发明实施例六提供的同义词挖掘的装置结构图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

在网页内容中，存在大量的同义词现象，比如，在关于美国经济的普通网页中，可能会提到“纽约证券交易所”，其后往往会出现“(NYSE，下简称纽交所)”，这就出现了同义词现象。再如，在一些诸如百科的知识类网页中，整个网页对一个名词进行介绍，在正文的前面几个段落中往往会提到这个名词的简称、昵称等同义词。针对上述网页的特点，可以采用基于模板挖掘的方法挖掘网页中出现的同义词。

本发明实施例中对同义词进行挖掘所采用的模板可以包括：同义标记符和边界信息。其中，同义标记符用于标记同义词对的出现，边界信息用于确定同义词对的上下文边界。同义标记符可以是词语，也可以是符号。

鉴于普通网页和知识类网页中同义词出现的不同特点，下面分别针对普通网页和知识类网页的同义词挖掘方法进行详细描述。首先结合实施例一对普通网页的同义词挖掘方法进行描述。

实施例一、

在普通网页中可能会出现多个词的同义词，即存在多个同义词对，且互为同义词的两个词语出现在较小的上下文窗口中，通常存在一个同义标记符对互为同义词的两个词语进行标记。该同义标记符可以包括但不限于：“简称”、“全称”、“即”、“缩写”，以及括号。对于中文同义词对，对同义标记符(诸如“简称”、“全称”等)前后若干距离的词语作为挖掘出的同义词对或者候选同义词对。对于英文同义词对，对同义标记符(诸如“缩写”、“即”等或者括号)前后若干距离的英文串作为同义词对或者候选同义词对。

基于普通网页的以上特点，可以采用预先人工配置同义词模板的方法，该同义词模板中包括的同义标记符如上所述可以为“简称”、“全称”、“即”、“缩写”等词语(以下称为同义标记词)，也可以为括号、“viz.”等符号，包括的边界信息可以设置为具体的上下文边界，即同义词对中同义词的上下文边界(同义词开始与结束的位置)，也可以设置为边界确定策略。

其中，如果边界信息是上下文边界，可以包括但不限于以下上下文边界：同义标记词-右括号、左括号-同义标记词、左括号-右括号、逗号-右括号、左括号-逗号、句首-左括号、同义标记词-句尾等。“-”之前的是上文边界，“-”之后的是下文边界。

例如，对于纽约证券交易所(NYSE，下简称纽交所)，其中，“NYSE”的上下文边界为：左括号-逗号，“纽交所”的上下文边界为：“简称”-右括号。

对于纽交所(全称纽约证券交易所，New York Stock Exchange)，其中“纽约证券交易所”的上下文边界为：“全称”-逗号，“New York StockExchange”的上下文边界为：逗号-右括号。

如果边界信息是边界确定策略，则该边界确定策略可以设定为：同义标记符前后设定距离范围内的各词语中匹配度满足预设条件的词语作为同义词对。

图1为本发明实施例一提供的对普通网页进行同义词挖掘的方法流程图，如图1所示，该方法可以包括以下步骤：

步骤101：利用预先设置的同义词模板，查找网页中的同义标记符。

可以将设置的同义词模板存储在数据库中，将同义标记符存储为第一级索引，指向对应的边界信息。在利用同义词模板进行匹配时，首先将同义标记符与网页内容进行匹配，查找网页中的同义标记符。网页中的同义词对可能在同义标记符的前后出现。

步骤102：在网页中同义标记符前后的设定距离范围内，按照同义词模板中包含的边界信息，抽取出同义词对。

需要说明的是，本发明中所有实施例中的处理都是基于对网页的文本处理(分词处理和词性标注)的。

由于普通网页中数据噪声较大，可以仅针对其中的缩写类或翻译类同义词对进行抽取。即抽取出的同义词对中，其中一个词语是另一个词语的缩写或翻译。对于缩写类的同义词对，有这样一个特点：中文的同义词对中，缩写词中的字都是全称词中字的子集；英文的同义词对中，缩写词是全称词各首字母的子集。

如果同义词模板中的边界信息包含具体的上下文边界，则直接利用该上下文边界抽取出同义词，即将上下文边界符合边界信息的词语抽取出来。例如，对于网页内容“纽约证券交易所(NYSE，下简称纽交所)”，如果同义词模板中同义标记符为“简称”、边界信息为：句首-左括号，以及同义标记符-右括号，则可以从中抽取出同义词对：“纽约证券交易所”和“纽交所”；如果同义词模板中同义标记符为括号、边界信息为：句首-左括号，以及左括号-逗号，则可以从中抽取出同义词对：“纽约证券交易所”和“NYSE”。这种方式对于缩写类或翻译类同义词对均可适用。

如果同义词模板中的边界信息包含边界确定策略，则可以采用动态规划的方法计算网页中同义标记符之前设定范围内各词语与之后设定范围内各短语之间的匹配度，选择匹配度最大的短语作为同义词对。这种方式应用于缩写类同义词对。

计算两词语(扩展的词语，包含短语的概念)之间匹配度的方式可以采用与编辑距离相类似的方法，假设其中一个词语P1由以下字组成：a1、a2和a3，另一个词语P2由以下字组成：f1、f2、f3和f4组成，P1可能是P2的缩写词，那么P1中的字应该都在P2中出现，P2如果包含不相关的词，匹配度是不变的，因此，仅需要找出匹配度最大的基础上全称词最短的词对。

具体公式如下：

MAT (P 1, P 2) = MAT (ala 2 a 3, f 1 f 2 f 3 f 4)

= \{\begin{matrix} \max (MAT (a 1 a 2, f 1 f 2 f 3) + 1, MAT (a 1 a 2 a 3, f 1 f 2 f 3)) & a 3 = f 4 \\ MAT (a 1 a 2 a 3, f 1 f 2 f 3) & a 3 &NotEqual; f 4 \end{matrix} - - - (1)

其中，MAT(P1，P2)为词语P1和P2之间的匹配度，MAT(φ，φ)＝MAT(φ，x)＝MAT(φ，x)＝0，MAT(x，x)＝1，x表示任意字，φ表示没有字。

步骤103：对抽取出的同义词对进行过滤处理。

通过步骤101和步骤102抽取出的同义词对中，可能存在一些不合理的词对，因此较优地，可以通过步骤103对抽取出的同义词对进行过滤处理，从而提高同义词对的质量。本领域技术人员很容易理解，本步骤是本发明的可选步骤。

采用的过滤处理可以包括但不限于以下所列中的任一或任意组合：

1)基于出现频次的过滤：将同义词对中来源网页数目小于预设的数目阈值N1的同义词对过滤掉，N1为预设的正整数。

2)基于搜索日志的过滤：将其中任一个词语在搜索日志中的出现次数小于预设的次数阈值N2的同义词对过滤掉，N2为预设的正整数。即如果由词语P1和P2构成的同义词对中，P1或者P2在搜索日志中的出现次数小于N2，则将该同义词对过滤掉。

3)对冗余同义词对的过滤：如果将某同义词对中两同义词重叠的部分删除后得到的词对与其他同义词对相同，则将该某同义词对过滤掉。

例如，同义词对：“北京大学出版社”和“北大出版社”，如果将两同义词重叠的部分删除后得到的词对为：“北京大学”和“北大”，如果该词对已经作为候选同义词存在，则可以将同义词对“北京大学出版社”和“北大出版社”过滤掉。

4)基于搜索结果的过滤：如果利用同义词对进行搜索得到的搜索结果数量小于预设的数量阈值N5，N5为预设的正整数，则将该同义词对过滤掉。

下面结合实施例二和实施例三分别对知识类网页的同义词模板挖掘方法和同义词挖掘方法进行描述。

实施例二、

在知识类网页中，往往只有网页所介绍名词的同义词，而且同义词可能分布在不同的句子或段落中。在本发明实施例中，可以采用自动学习的方式挖掘出同义词模板，利用该同义词模板进行同义词挖掘时，不仅能挖掘出缩写类和翻译类同义词对，也能够挖掘出缩写类和翻译类之外的同义词对。

图2为本发明实施例二提供的针对知识类网页进行同义词模板挖掘的方法流程图，如图2所示，该方法可以包括以下步骤：

步骤201：获取预先设置的种子词对，种子词对中其中一个词语为知识类网页的主题词，另一个词语为该主题词的同义词。

本实施例所涉及的知识类网页指的是：网页内容是用于介绍一个主题词的网页，介绍内容包括这个主题词的定义、由来、相关的事件等。诸如百科类网页等。除了知识类网页之外的其他类型网页都可以认为是普通网页，为了考虑准确率的问题，可以仅关注新闻类型的网页，其描述的对象通常是一个事件。

该实施例中为了实现同义词挖掘的自动学习机制，可以预先设置种子词对，利用这些种子词对在知识类网页中的标识和位置信息来生成模板。预先设置的种子词对可以采用同义词表的形式存储，本步骤中从该同义词表中获取种子词对。

步骤202：在以种子词对中其中一个词语为主题词的知识类网页中，将该种子词对中另一个词语在网页中设定上下文范围内的词语或符号作为候选标记符，并统计各候选标记符的出现次数以及该另一个词语的边界信息。

在提取同义词模板阶段，种子词对中一个词语为知识类网页的主题词时，另一个词语的上下文会有很多词语或者符号，这些词语或符号都有可能是同义标记符，因此，可以将该另一个词语在网页中设定上下文范围内的词语或符号都首先作为候选标记符，对各候选标记符的出现次数以及对应的另一个词语的边界信息进行记录。

例如，如果种子词对为：“意甲”和“意大利足球甲级联赛”，在以“意大利足球甲级联赛”为主题词的知识类网页(例如百科页面)中，出现在种子词对中另一个词语“意甲”的设定上下文范围内的词语假设含有：“SerieA”、“简称”、“尤文图斯”、“历史上”、“夺得”、“联赛”等，将这些词均记录为候选标记符，并分别统计出现次数，其中，“Serie A”和“简称”对应的边界信息是“简称”-右括号，“尤文图斯”、“历史上”、“夺得”和“联赛”对应的边界信息是“夺得”-“联赛”。

将上述确定的候选标记符、候选标记符出现次数以及对应的边界信息记录在数据库中，供后续确定同义标记符时调用。

较优地，在对候选标记符进行统计之前，可以首先对候选标记符进行基于停用符表的过滤，将包含在停用符表中的候选标记符过滤掉。在该停用符表中可以包括：助词、副词、虚词、代词等停用词，以及逗号、句号、感叹号、省略号等标点符号。停用符表中包含的词语和符号通常是不太可能标识同义词对出现的。

通常可以作为同义标记符的是：诸如“简称”、“全称”、“即”、“缩写”等词语，或者，括号、“viz.”等符号。

步骤203：基于各候选标记符的出现次数为各候选标记符打分，选择打分值满足预设打分阈值的候选标记符，并将其记录为同义词模板中的同义标记符。

在从各候选标记符中选择同义标记符来形成同义词模板时，可以基于统计得到的各候选标记符的出现次数为各候选标记符打分，另外，打分策略除了基于统计得到的各候选标记符的出现次数之外，还可以同时结合各候选标记符出现在网页中的位置。例如，由于在知识类网页内容的前两段通常出现主题词对应同义词的几率较大，可以将出现在网页内容的前两段中的候选标记符设置较高的权重值。

步骤204：将同义标记符对应的边界信息记录在同义词模板中。

在本步骤中可以将选择的同义标记符所对应的边界信息全都记录在同义词模板中。可选地，在同义词模板中除了包含同义标记符和边界信息之外，还可以进一步包含位置信息，即同义词相对于同义标记符的位置信息，该相对位置信息可以包括：同义词相对于同义标记符的方向信息，和/或，同义词相对于同义标记符的距离信息。

其中方向信息指的是同义词在同义标记符的前面还是后面，如果在同义标记符的前面可以采用“-”标识，如果在同义标记符的后面可以采用“+”表示或没有符号标识。距离信息可以采用距离同义标记符的字数表示。

例如，对于种子词对“意大利足球甲级联赛”和“意甲”，如果在知识类网页中，主题词为“意大利足球甲级联赛”，网页中出现“意大利足球甲级联赛的简称是意甲”，如果选择出的同义标记符为“简称”，则对应的位置信息可以为2个词语(表示主题词的同义词在同义标记词后面的第2个词语)；网页中如果出现“意甲是意大利足球甲级联赛的简称”，则对应的位置信息可以为-4(表示主题词的同义词在同义标记词前面的第4个词语)。

通过上述方式挖掘出的同义词模板中同一个同义标记符可能对应多个边界信息和位置信息。后续利用该同义词模板抽取出的同义词对也可能是多个。

本实施例中，同义词模板在数据库中的存储方式可以如表1所示。

表1

同义标记符(索引)	边界信息	位置信息
			“简称”	“是”-逗号	2个词语

“简称”	句首-“是”	-4个词语
			...	...	...

至此实施例二所示流程结束。

实施例三、

图3为本发明实施例三提供的利用上述挖掘出的同义词模板挖掘同义词的方法流程图，该方法主要针对知识类网页进行同义词挖掘，如图3所示，该方法可以包括以下步骤：

步骤301：利用预先挖掘出的同义词模板，查找网页中的同义标记符。

可以将图2所示流程挖掘出的同义词模板存储在数据库中，将同义标记符存储为第一级索引，指向对应的边界信息以及进一步的距离信息。在利用同义词模板进行匹配时，首先将同义标记符与知识类网页的网页内容进行匹配，查找知识类网页中的同义标记符。知识类网页所介绍的主题词的同义词可能在该同义标记符的前后出现。

步骤302：在网页中同义标记符前后的设定距离范围内，按照同义词模板中该同义标记符对应的边界信息，抽取出该网页的主题词对应的同义词，记录由该主题词和同义词构成的同义词对。

假设在主题词为“河南”的百科类网页中，利用预先挖掘出的同义词模板，查找网页中的同义标记符，假设网页中存在句子：“河南简称豫，”，便可以匹配到同义标记符“简称”。如果在同义词模板中“简称”对应的边界信息为：“简称”-逗号，则可以从该网页中抽取出以“简称”-逗号为边界的词语“豫”，词语“豫”就是该网页的主题词“河南”对应的同义词，记录由“豫”和“河南”构成的同义词对。

另外，为了更精确地获取知识类网页的主题词对应的同义词，如果在同义词模板中包含位置信息，则在抽取同义词时，除了依据同义词模板中的边界信息之外，还依据同义词模板中同义标记符对应的位置信息。

例如，在同义词模板中，如果记录同义标记符“简称”对应的边界信息为：“是”-逗号，位置信息为2个词语(此处“2个词语”代表同义词在同义标记符之后第二个词语)，则如果存在句子“河南的简称是豫，”就能够从中抽取出“河南”对应的同义词“豫”。

再如，在同义词模板中，如果记录同义标记符“简称”对应的边界信息为：句首-“是”，位置信息为：-4个词语(此处“-4个词语”代表同义词在同义标记符之前第四个词语)，则如果存在句子“豫是河南的简称”，就能够从中抽取出“河南”对应的同义词“豫”。

由于抽取出的同义词模板中一个同义标记符可能对应多个边界信息及位置信息，则可以以任意的顺序逐一利用同义标记符对应的各边界信息及位置信息抽取同义词对。

步骤303：对记录的同义词对进行过滤处理。

通过步骤301和步骤302抽取出的同义词对中，可能存在一些不合理的词对，因此较优地，可以通过步骤303对记录的同义词对进行过滤处理，从而提高同义词对的质量。本领域技术人员很容易理解，本步骤是本发明的可选步骤。

1)基于出现频次的过滤：将同义词对中来源网页数目小于预设的数目阈值N3的同义词对过滤掉，N3为预设的正整数。

2)基于搜索日志的过滤：将其中任一个词语在搜索日志中的出现次数小于预设的次数阈值N4的同义词对过滤掉，N4为预设的正整数。即如果由词语P1和P2构成的同义词对中，P1或者P2在搜索日志中的出现次数小于N4，则将该同义词对过滤掉。

另外，采用自动学习的方式挖掘出的同义词模板也可以适用于普通网页，当应用于普通网页时，由于普通网页不像知识类网页一样存在介绍的主题词，因此，在挖掘出的同义词模板中，需要包含同义词对中两个同义词的边界信息，更进一步地，会包含同义词对中两个同义词的位置信息。下面通过实施例四针对普通网页进行同义词模板挖掘的方法进行描述。

实施例四、

图4为本发明实施例四提供的针对普通网页进行同义词模板挖掘的方法流程图，如图4所示，该方法可以包括以下步骤：

步骤401：获取预先设置的种子词对。

步骤402：在普通网页中，确定种子词对中两词语之间的距离在预设距离范围内的网页部分，将该网页部分中种子词对的设定上下文范围内的词语或符号作为候选标记符，并统计各候选标记符的出现次数以及种子词对中两词语在该网页部分的边界信息。

在普通网页中，如果种子词对中两词语之间的距离较近，则通常可以从该普通网页中种子词对所在的网页部分抽取出模板，在抽取模板时，种子词对的附近可能会出现同义标记符，因此，可以将种子词对的设定上下文范围内的词语或符号作为候选标记符，并记录种子词对中两词语的边界信息。

例如，种子词对为“意大利足球联赛”和“意甲”，在某网页中出现了这样的网页内容：“通常意大利足球甲级联赛简称为意甲，尤文图斯是其中......”在该内容中，词语“意大利足球联赛”和“意甲”之间的距离在预设距离范围内，则可以选择该种子词对的设定上下文范围内的词语或符号作为候选标记符，如果设定上下文范围为2个词语，则可以将“通常”、“简称”、“为”、“，”和“尤文图斯”作为候选标记符。

同样，在对候选标记符进行统计时，可以首先对候选标记符进行基于停用符表的过滤，将包含在停用符表中的候选标记符过滤掉。假设停用符表中包含有“，”，则将“，”过滤掉。

步骤403：同步骤203。

步骤404：同步骤204，只是在同义词模板中记录的边界信息为两个词语的边界信息，更进一步地，还记录两个词语相对于同义标记符的位置信息。

仍以“通常意大利足球甲级联赛简称为意甲，尤文图斯是其中......”为例，由其最终产生的同义词模板中，同义标记符为“简称”，边界信息为：“通常”-“简称”以及“为”-逗号，如果存在位置信息，则位置信息为：-1个词语和2个词语。

该实施例挖掘出的同义词模板在数据库中的存储格式可以如表2所示：

表2

在利用实施例四所述流程挖掘出同义词模板后，利用该同义词模板进行同义词挖掘的方法与实施例三所示的流程相同。只是查找到网页中的同义标记符后，利用同义词模板中该同义词标记符对应的两个词语的边界信息，或者利用两个词语的边界信息和位置信息，抽取出同义词对。

以上是对本发明所提供的方法进行的详细描述，下面通过实施例五以及实施例六分别对本发明所提供的同义词模板的挖掘装置和同义词的挖掘装置进行详细描述。

实施例五、

图5为本发明实施例五提供的同义词模板的挖掘装置结构图，如图5所示，该装置可以包括：种子词对获取单元500、候选标记符确定单元510、信息记录单元520和标记符确定单元530。

种子词对获取单元500，用于获取预设的种子词对。

候选标记符确定单元510，用于将种子词对在网页中设定上下文范围内的词语或符号确定为候选标记符。

信息记录单元520，用于记录各候选标记符的出现次数以及种子词对中同义词在网页中的边界信息；将标记符确定单元530选择的候选标记符记录为同义词模板中的同义标记符，将同义标记符对应的边界信息记录在同义词模板中。

标记符确定单元530，用于基于信息记录单元520记录的各候选标记符的出现次数为各候选标记符打分，选择打分值满足预设打分阈值的候选标记符。

在针对知识类网页时，上述种子词对中其中一个词语P1为网页的主题词，另一个词语P2为主题词的同义词。此时，候选标记符确定单元510具体将P2在网页中设定上下文范围内的词语或符号作为候选标记符；信息记录单元520记录的边界信息为P2的边界信息。这种情况对应于实施例二中所示的同义词模板挖掘方式。

在针对普通网页时，候选标记符确定单元510具体确定种子词对中两词语P1和P2之间的距离在预设距离范围内时所在的网页部分，将该网页部分中种子词对的设定上下文范围内的词语或符号作为候选标记符。此时，信息记录单元520记录的边界信息为P1和P2在网页内容中的边界信息。这种情况对应于实施例四中所示的同义词模板挖掘方式。

基于以上两种情况，该装置还可以包括：过滤处理单元540，用于将候选标记符确定单元510得到的候选标记符中，包含在预设的停用符表中的候选标记符过滤掉。信息记录单元520记录的是经所述过滤处理单元540过滤处理后的候选标记符。

其中停用词表中包含的词语和符号通常是不太可能标识同义词对出现的，例如可以包括：助词、副词、虚词、代词等停用词，以及逗号、句号、感叹号、省略号等标点符号。

上述的同义标记符包括以下词语中的至少一种：“简称”、“全称”、“即”、“缩写”；或者，包括以下符号中的至少一种：括号、“viz”。

标记符确定单元530在为各候选标记符打分时，除了利用统计到的各候选标记符的出现次数之外，还可以进一步结合各候选标记符出现在网页中的位置。为出现在网页中不同位置的候选标记符设置不同的权重值。

在同义词模板中除了包含同义标记符和同义词对中各同义词的边界信息之外，为了能够更精确地出确定出同义词对，同义词模板中还可以进一步包括：同义词对中同义词相对于同义标记符的位置信息。

此时，对应于实施例二中所示的同义词模板挖掘方式，信息记录单元520还会记录P2相对于候选标记符的位置信息，将同义标记符对应的位置信息记录在同义词模板中。

对应于实施例四中所示的同义词模板挖掘方式，信息记录单元520还会记录P1和P2相对于候选标记符的位置信息，将同义标记符对应的位置信息记录在同义词模板中。

其中，位置信息包括：同义词相对于同义标记符的方向信息，和/或，同义词相对于同义标记符的距离信息。

上述同义词模板可以存储在数据库中，信息记录单元520将同义标记符存储为索引，指向对应的边界信息。

实施例六、

图6为本发明实施例六提供的同义词挖掘的装置结构图，如图6所示，该装置可以包括：标记符匹配单元600和同义词对抽取单元610。

标记符匹配单元600，用于利用预先设置的同义词模板，查找网页中的同义标记符。

同义词对抽取单元610，用于在网页中标记符匹配单元600查找出的同义标记符前后的设定距离范围内，按照同义词模板中同义标记符对应的同义词对中各词语的边界信息，抽取出同义词对。

其中，同义词模板包括：同义标记符和同义词对中词语的边界信息。

上述同义词模板可以采用人工方法预先设置在数据库中，或者，采用实施例五所述装置预先挖掘并记录在数据库中。

当同义词模板采用人工方式预先设置时，上述边界信息可以包括：具体的上下文边界，例如：同义标记词-右括号、左括号-同义标记词、左括号-右括号、逗号-右括号、左括号-逗号、句首-左括号、同义标记词-句尾等。“-”之前的是上文边界，“-”之后的是下文边界。或者，也可以是边界确定策略，例如将边界确定策略设定为：同义标记符前后设定距离范围内的各词语中匹配度满足预设条件的词语作为同义词对。

根据不同的情况，同义词对抽取单元610可以采用不同的实现方式，具体如下：

第一种实现方式：如果边界信息包括边界确定策略，则同义词对抽取单元610可以具体包括：匹配度计算子单元611和词对抽取子单元612。图6所示为该种实现方式。

匹配度计算子单元611，用于在网页中标记符匹配单元600查找出的同义标记符前后的设定距离范围内，计算除同义标记符之外其他各词语(广义的词语，包括短语的情况)之间的匹配度。

词对抽取子单元612，用于根据匹配度计算子单元611的计算结果，抽取出两个词语Q1和Q2构成同义词对，其中Q2覆盖Q1中所有的字，且在Q1和Q2之间具有最大的匹配度基础上保证Q2最短。

其中，匹配度计算子单元611和词对抽取子单元612采用的算法可以是公式(1)所示的算法。

第二种实现方式：如果同义词模板是由实施例五所述装置针对知识类网页所采用的方式预先挖掘所得，则同义词对抽取单元610在网页中同义标记符前后的设定距离范围内，按照同义模板中同义标记符对应的边界信息，抽取出网页的主题词对应的同义词，由主题词和抽取出的同义词构成同义词对。这种方式对应于实施例三所示方式。

第三种实现方式：如果同义词模板是由实施例五所述装置针对普通网页所采用的方式预先挖掘所得，则同义词对抽取单元610在网页中同义标记符前后的设定距离范围内，按照同义模板中同义标记符对应的边界信息，抽取出满足该边界信息的两个词语构成同义词对。

基于以上三种实现方式，为了进一步提高抽取出的同义词的质量，该装置还可以包括：过滤处理单元620，用于对同义词对抽取单元610抽取出的同义词对进行以下所列过滤处理中的任一或任意组合：

将同义词对中来源网页数目小于预设的数目阈值N1的同义词对过滤掉，N1为预设的正整数；

如果将某同义词对中两同义词重叠的部分删除后得到的词对与其他同义词对相同，则将某同义词对过滤掉；以及，

另外，为了更准确地抽取同义词对，该同义词模板中除了同义标记符和同义词对中同义词的边界信息之外，还可以包括：同义词对中同义词相对于同义标记符的位置信息。

同义词对抽取单元610在抽取同义词对时，进一步结合同义标记符在同义词模板中对应的位置信息。

其中位置信息可以包括：同义词相对于同义标记符的方向信息，和/或，同义词相对于同义标记符的距离信息。

本发明提供的上述方法和装置不仅适用于中文的同义词对抽取，同样适用于诸如英文等其他语种的同义词抽取。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种同义词模板的挖掘方法，其特征在于，所述同义词模板包括：同义标记符和同义词对中同义词的边界信息；该方法包括：

A、获取预设的种子词对；

2.根据权利要求1所述的方法，其特征在于，所述种子词对中其中一个词语P1为所述网页的主题词，另一个词语P2为所述主题词的同义词；

3.根据权利要求1所述的方法，其特征在于，所述步骤B具体为：

4.根据权利要求1至3任一权项所述的方法，其特征在于，在所述记录各候选标记符的出现次数之前，该方法还包括：将包含在预设的停用符表中的候选标记符过滤掉。

5.根据权利要求1至3任一权项所述的方法，其特征在于，所述同义标记符包括以下词语中的至少一种：“简称”、“全称”、“即”、“缩写”；或者，

包括以下符号中的至少一种：括号、“viz”。

6.根据权利要求1至3任一权项所述的方法，其特征在于，在所述为各候选标记符打分时进一步结合各候选标记符出现在所述网页中的位置。

7.根据权利要求2所述的方法，其特征在于，所述同义词模板中进一步包括：同义词对中同义词相对于所述同义标记符的位置信息；

8.根据权利要求3所述的方法，其特征在于，所述同义词模板中进一步包括：同义词对中同义词相对于所述同义标记符的位置信息；

9.根据权利要求7或8所述的方法，其特征在于，所述位置信息包括：同义词相对于同义标记符的方向信息，和/或，同义词相对于同义标记符的距离信息。

10.根据权利要求1所述的方法，其特征在于，所述同义词模板存储在数据库中，所述同义标记符存储为索引，指向对应的边界信息。

11.一种同义词挖掘的方法，其特征在于，该方法包括：

A、利用预先设置的同义词模板，查找网页中的同义标记符；

其中，所述同义词模板包括：同义标记符和同义词对中词语的边界信息；

所述同义词模板采用人工方式预先设置在数据库中，或者，采用如权利要求1至3任一权项所述的方法预先挖掘并记录在数据库中。

12.根据权利要求11所述的方法，其特征在于，当所述同义词模板采用人工方式预先设置时，所述边界信息包括：具体的上下文边界或边界确定策略。

13.根据权利要求12所述的方法，其特征在于，如果所述边界信息包括边界确定策略，则所述步骤B具体包括：

14.根据权利要求11所述的方法，其特征在于，如果所述同义词模板采用如权利要求2所示的方法预先挖掘，则所述步骤B具体包括：

15.根据权利要求11所述的方法，其特征在于，如果所述同义词模板采用如权利要求3所述的方法预先挖掘，则所述步骤B具体包括：

16.根据权利要求11所述的方法，其特征在于，在所述步骤B之后还包括：

17.根据权利要求11所述的方法，其特征在于，所述同义词模板中进一步包括：同义词对中同义词相对于所述同义标记符的位置信息，则在所述步骤B中抽取同义词对时，进一步结合步骤A查找到的同义标记符在所述同义词模板中对应的所述位置信息。

18.根据权利要求17所述的方法，其特征在于，所述位置信息包括：同义词相对于同义标记符的方向信息，和/或，同义词相对于同义标记符的距离信息。

19.根据权利要求11所述的方法，其特征在于，所述同义标记符包括以下词语中的至少一种：“简称”、“全称”、“即”、“缩写”；或者，

包括以下符号中的至少一种：括号、“viz”。

20.一种同义词模板的挖掘装置，其特征在于，所述同义词模板包括：同义标记符和同义词对中同义词的边界信息；该装置包括：种子词对获取单元、候选标记符确定单元、信息记录单元和标记符确定单元；

所述种子词对获取单元，用于获取预设的种子词对；

21.根据权利要求20所述的装置，其特征在于，所述种子词对中其中一个词语为P1为所述网页的主题词，另一个词语P2为所述主题词的同义词；

所述信息记录单元记录的边界信息为所述P2的边界信息。

22.根据权利要求20所述的装置，其特征在于，所述候选标记符确定单元具体确定所述种子词对中两词语P1和P2之间的距离在预设距离范围内时所在的网页部分，将该网页部分中种子词对的设定上下文范围内的词语或符号作为候选标记符；

23.根据权利要求20至22任一权项所述的装置，其特征在于，该装置还包括：过滤处理单元，用于将所述候选标记符确定单元得到的候选标记符中，包含在预设的停用符表中的候选标记符过滤掉；

所述信息记录单元记录的是经所述过滤处理单元过滤处理后的候选标记符。

24.根据权利要求20至22任一权项所述的装置，其特征在于，所述同义标记符包括以下词语中的至少一种：“简称”、“全称”、“即”、“缩写”；或者，

包括以下符号中的至少一种：括号、“viz”。

25.根据权利要求20至22任一权项所述的装置，其特征在于，所述标记符确定单元在为各候选标记符打分时进一步结合各候选标记符出现在所述网页中的位置。

26.根据权利要求21所述的装置，其特征在于，所述同义词模板中进一步包括：同义词对中同义词相对于所述同义标记符的位置信息；

27.根据权利要求22所述的装置，其特征在于，所述同义词模板中进一步包括：同义词对中同义词相对于所述同义标记符的位置信息；

所述信息记录单元，还用于记录所述P1和所述P2相对于所述候选标记符的位置信息，将所述同义标记符对应的位置信息记录在所述同义词模板中。

28.根据权利要求26或27所述的装置，其特征在于，所述位置信息包括：同义词相对于同义标记符的方向信息，和/或，同义词相对于同义标记符的距离信息。

29.根据权利要求20所述的装置，其特征在于，该装置还包括：数据库，用于存储所述同义词模板；

30.一种同义词挖掘的装置，其特征在于，该装置包括：标记符匹配单元和同义词对抽取单元；

所述同义词模板采用人工方法预先设置在数据库中，或者，由如权利要求20至22任一权项所述装置预先挖掘并记录在数据库中。

31.根据权利要求30所述的装置，其特征在于，当所述同义词模板采用人工方式预先设置时，所述边界信息包括：具体的上下文边界或边界确定策略。

32.根据权利要求31所述的装置，其特征在于，如果所述边界信息包括边界确定策略，则所述同义词对抽取单元具体包括：匹配度计算子单元和词对抽取子单元；

33.根据权利要求30所述的装置，其特征在于，如果所述同义词模板由如权利要求21所述装置预先挖掘，则所述同义词对抽取单元在所述网页中同义标记符前后的设定距离范围内，按照同义模板中同义标记符对应的边界信息，抽取出所述网页的主题词对应的同义词，由所述主题词和抽取出的同义词构成同义词对。

34.根据权利要求30所述的装置，其特征在于，如果所述同义词模板由如权利要求22所述装置预先挖掘，则所述同义词对抽取单元在所述网页中同义标记符前后的设定距离范围内，按照同义模板中同义标记符对应的边界信息，抽取出满足该边界信息的两个词语构成同义词对。

35.根据权利要求30所述的装置，其特征在于，该装置还包括：过滤处理单元，用于对所述同义词对抽取单元抽取出的同义词对进行以下所列过滤处理中的任一或任意组合：

36.根据权利要求30所述的装置，其特征在于，所述同义词模板中进一步包括：同义词对中同义词相对于所述同义标记符的位置信息；

37.根据权利要求36所述的装置，其特征在于，所述位置信息包括：同义词相对于同义标记符的方向信息，和/或，同义词相对于同义标记符的距离信息。

38.根据权利要求30所述的装置，其特征在于，所述同义标记符包括以下词语中的至少一种：“简称”、“全称”、“即”、“缩写”；或者，

包括以下符号中的至少一种：括号、“viz”。