CN105095203A

CN105095203A - 同义词的确定、搜索方法及服务器

Info

Publication number: CN105095203A
Application number: CN201410156107.5A
Authority: CN
Inventors: 李红松; 陈春明; 陈俊波; 王力; 庞昂博; 章鹏
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2014-04-17
Filing date: 2014-04-17
Publication date: 2015-11-25
Anticipated expiration: 2034-04-17
Also published as: CN105095203B

Abstract

本发明涉及一种同义词的确定、搜索方法及服务器，包括：搜集与预先给定的给定词有关联关系的文本集合，所述文本集合中包括多个文本；当识别到所述文本中直接包含所述给定词时，则根据所述文本，确定文本模式，并从所述文本模式中提取参考文本模式；当识别到所述文本中不直接包含所述给定词时，将所述文本加入同义词文本库中；根据所述参考文本模式，从所述同义词文本库中提取所述给定词的同义词，将提取的同义词作为所述给定词的同义词。由于用于提取文本模式的文本与给定词之间的关系是明确的，根据该文本找到的同义词就会与给定词具有非常直接的关系，因此，可以提高同义词确定的全面性和准确性，从而可以提高搜索结果的准确性和效率。

Description

同义词的确定、搜索方法及服务器

技术领域

本申请涉及计算机技术领域，尤其涉及一种同义词的确定、搜索方法及服务器。

背景技术

同义词是指与给定词含义相同的词语，为给定词找出相应的同义词集是自然语言处理的一个重要课题，其在电子商务、搜索引擎和自然语言理解等领域发挥着关键性的作用。

现有技术中，主要是通过人工找到一个或一些能够表达同义词关系的标志词，如“又称”，然后在文本库中提取包含这个标志词的句子，如句子“中国，又称神州”，则中国-神州为同义词关系，最后将找到的每个同义词，根据通过不同标志词找到的该同义词的个数和该标志词对应的权重值，对该同义词进行打分，并根据打分结果进行排序，选择排位较高者为同义词。但是，由于这些标志词是通过人工找到的，所以这些标志词的个数是有限的，导致通过这些标志词找到的同义词数量也是有限的。

另一种现有技术中，服务器先找到确定是同义词关系的若干同义词对，根据找到的同义词对，在文本库中找到匹配这些同义词对的句子，并从找到的句子中提取标志词，如“又称”，在文本库中提取包含这个标志词的句子，如句子“中国，又称神州”，则中国-神州为同义词关系，将找到的每个同义词，根据通过不同标志词找到的该同义词的个数和该标志词对应的权重值，对该同义词进行打分，并根据打分结果进行排序，选择排位较高者为同义词。然而用于提取这些标志词的文本与上述词对之间的关系是不明确的，因此根据该文本找到的同义词与给定词之间的关系也是不明确的，这影响了同义词确定的全面性和准确性，从而影响了搜索结果的准确性和效率，进而浪费了计算机资源。

发明内容

本申请实施例提供了一种同义词的确定、搜索方法及服务器，以解决由于提取标志词的文本与给定词的关系不明确导致的确定的同义词不准确，从而影响搜索结果的准确性和效率，并浪费计算机资源的问题。

第一方面，提供了一种同义词的确定方法，该方法包括：

搜集与预先给定的给定词有关联关系的文本集合，所述文本集合中包括多个文本；

当识别到所述文本中直接包含所述给定词时，则根据所述文本，确定文本模式，并从所述文本模式中提取参考文本模式；

当识别到所述文本中不直接包含所述给定词时，将所述文本加入同义词文本库中；

根据所述参考文本模式，从所述同义词文本库中提取所述给定词的同义词，将提取的同义词作为所述给定词的同义词。

第二方面，提供了一种同义词的搜索方法，所述方法包括：

接收搜索请求，所述搜索请求中包括关键词；

根据所述关键词，从数据库中查找到确定的同义词；

根据所述关键词和所述同义词，进行搜索；

其中，确定同义词的步骤包括：

第三方面，提供了一种服务器，该服务器包括：搜集单元、第一确定单元、第二确定单元和提取单元；

所述搜集单元，用于搜集与预先给定的给定词有关联关系的文本集合，所述文本集合中包括多个文本；

所述第一确定单元，用于当识别到所述文本中直接包含所述给定词时，则根据所述文本，确定文本模式，并从所述文本模式中提取参考文本模式；

所述第二确定单元，用于当识别到所述文本中不直接包含所述给定词时，将所述文本加入同义词文本库中；

所述提取单元，用于根据所述参考文本模式，从所述同义词文本库中提取所述给定词的同义词，将提取的同义词作为所述给定词的同义词。

第四方面，提供了一种服务器，所述服务器包括：接收单元、查找单元和发送单元；

所述接收单元，用于接收搜索请求，所述搜索请求中包括关键词；

所述查找单元，用于根据所述关键词，从数据库中查找确定的同义词；

所述发送单元，用于根据所述关键词和所述同义词，进行搜索，并将根据所述关键词和所述同义词搜索得到的搜索结果发送给用户终端；

所述查找单元具体用于：

因此，本申请先搜集与预先给定的给定词有关联关系的文本集合，所述文本集合中包括多个文本；当识别到所述文本中直接包含所述给定词时，则根据所述文本，确定文本模式，并从所述文本模式中提取参考文本模式；当识别到所述文本中不直接包含所述给定词时，将所述文本加入同义词文本库中；根据所述参考文本模式，从所述同义词文本库中提取所述给定词的同义词，将提取的同义词作为所述给定词的同义词。本申请用于提取文本模式的文本与给定词之间的关系是明确的，根据该文本找到的同义词就会与给定词具有非常直接的关系，因此，可以提高同义词确定的全面性和准确性，从而可以提高搜索结果的准确性和效率。

附图说明

图1为本申请实施例一提供的同义词的确定方法的流程图；

图2为本申请实施例二提供的同义词的搜索方法的流程图；

图3为本申请实施例三提供的服务器示意图；

图4为本申请实施例四提供的服务器示意图。

具体实施方式

下面通过附图和实施例，对本申请的技术方案做进一步的详细描述。

本申请提供的同义词的确定方法，先搜集与预先给定的给定词有关联关系的文本集合，所述文本集合中包括多个文本；当识别到所述文本中直接包含所述给定词时，则根据所述文本，确定文本模式，并从所述文本模式中提取参考文本模式；当识别到所述文本中不直接包含所述给定词时，将所述文本加入同义词文本库中；根据所述参考文本模式，从所述同义词文本库中提取所述给定词的同义词，将提取的同义词作为所述给定词的同义词。从而可以解决由于提取标志词的文本与给定词的关系不明确导致的确定的同义词不准确，从而影响搜索结果的准确性和效率，并浪费计算机资源的问题。

图1为本申请实施例一提供的同义词的确定方法的流程图。所述方法的执行主体可以是服务器，如图1所示，所述方法具体可包括以下步骤：

步骤110，搜集与预先给定的给定词有关联关系的文本集合，所述文本集合中包括多个文本。

需要说明的是，在该步骤中给定词可以是服务器或客户端搜集到的，也可以是由用户给定的。例如，服务器或客户端可预先从网页页面信息中搜集用户提交的词。例如卖家用户提交的商品页面中的词，或者买家用户提交的搜索词等。

优选地，该给定词可以为商品页面中描述商品商品属性的词。商品属性是指商品本身所固有的性质，如品牌、规格、材质和尺寸等，这些描述商品属性的词通常会出现在该商品的结构化属性栏目中，其中，商品的结构化属性栏目如网页页面中的商品详情栏目。例如，在商品为“箱包”的网页页面中，在商品详情栏目包括：品牌：“XXYY”（在本申请实施例中，该“XXYY“代表某一品牌，例如，可以代表“LouisVuitton”、“COACH”等中任一品牌）；规格：中小型；材质：牛皮；尺寸：25*19*11cm，那么这些描述商品属性的词“XXYY”、“中小型”、“牛皮”和“25*19*11cm”即为给定词。具体地，对于上述给定词，服务器按照描述商品属性的词的类别，从网页页面的结构化属性栏目中分别搜集，比如，先搜集描述商品属性为品牌的给定词，然后再搜集描述商品属性为规格的给定词，依次类推，直至搜集到所有给定词。

在搜集到上述给定词之后，服务器再从网页页面信息中搜集与该给定词有关联关系的文本集合，然后在从与给定词有关联关系的文本集合中，通过本申请将要描述的方法确定该给定词的同义词。需要注意的是，在本申请的步骤中描述的给定词仅仅是指单个给定词，不是多个给定词，也即对每一个给定词都是同样执行本申请方法来找到同义词，以便用于后续的商品网站上的商品搜索。

以下将具体介绍服务器如何从网页页面信息中搜集与该给定词有关联关系的文本集合。与给定词有关联关系的文本集合也是服务器预先从网页页面信息中搜集的卖家用户提交的文本和/或买家用户提交的文本，在本实施例中，当给定词为卖家用户提交的描述出售商品的商品属性的词时，服务器可以通过两种方式搜集与给定词有关联关系的文本集合，第一种方式是，根据网页页面上的商品标题来搜集。第二种方式是，根据用户在搜索时输入的查询语句来搜集。

第一种方式，举例来说，服务器预先给定的给定词为描述商品属性的词，在电子商务网站如淘宝中，商品主页的标题往往包含了该商品的商品属性，因此对于给定词为描述商品属性如品牌、规格、材质和尺寸等的词来说，商品标题是与给定词（也即描述商品属性的词）有关联关系的文本。具体地，假如，服务器预先给定的给定词：商品属性品牌“XXYY”，那么，就从品牌为“XXYY”的商品主页中搜集标题，其中，这些标题可以为包括“XXYY”的中文或者英文文本，假如“XXYY”为描述上述商品的品牌的英文文本，与“XXYY”对应的中文文本为“AABB”，则“香港代购XXYY包”和“香港代购AABB包”就成为与给定词“XXYY”有关联关系的文本。此外，由于商品主页的标题往往包含了该商品的商品属性，因此，当服务器预先给定的给定词：商品属性规格“长款”，这些标题可以为与“长款”含义相同或者相近的文本，例如，标题“香港代购XXYY长款包”和“香港代购AABB中长款包”也可以成为与规格“长款”有关联关系的文本。此处，上述举例的方式仅用于说明，并不用于限制。

第二种方式，举例来说，服务器预先给定的给定词为描述商品属性的词，用户在搜索某个商品时，为了提高命中率，通常将该商品属性罗列起来作为查询语句的一部分提交给搜索引擎，当用户点击搜索结果的某一个商品时，意味着用户认为这个结果很有可能是他要的商品，这样搜索引擎的查询语句成为与给定词（也即描述商品属性的词）有关联关系的文本。具体地，当用户在搜索时输入的查询语句为“XXYY女包皮革长款”和“XY女包皮革长款”时，且用户点击了根据上述查询语句搜索出来的商品，意味着用户认为这个结果可能是他要的商品，那么该查询语句就成为与例如服务器预先给定的给定词，商品属性品牌“XXYY”，有关联关系的文本。其中，对于一些查询语句，例如“香港代购CD包”等这样的查询语句，其中，该查询语句中包括的商品属性品牌为“CD”，但是，由于服务器预先给定的给定词为“XXYY”，所以即使该查询语句中包括有描述商品属性的词“CD”，该查询语句也不能与该给定词“XXYY”成为有关联关系的文本，该查询语句只可能被过滤掉。此处，上述举例的方式仅用于说明，并不用于限制。

由于上述搜集到的文本集合中的文本均是与给定词有关联关系的标题或者查询语句，因此，本申请根据该文本找到的同义词就会与给定词具有非常直接的关系，从而能够准确地找出给定词的同义词集合。

步骤120，识别所述文本中是否直接包含所述给定词，当识别所述文本中直接包含所述给定词，则执行步骤130；当识别所述文本中不直接包含所述给定词，则执行步骤140。

在依次识别与给定词有关联关系的文本集合中的每个文本是否直接包含给定词的步骤中，直接包含是指文本中包含与给定词完全一样的字，而不是指文本含义上包含给定词。例如，服务器预先给定的给定词：商品属性品牌“XXYY”，“XXYY”为描述上述商品的品牌的英文文本，与“XXYY”对应的中文文本为“AABB”，则文本“香港代购XXYY包”中直接包含了“XX”和“YY”这两个单词，则将上述文本识别为直接包含给定词的文本，而文本“香港代购AABB包”中只包含了给定词“XXYY”的中文名称，并没有直接包含“XX”和“YY”这两个单词，所以文本“香港代购AABB包”不直接包含给定词。

步骤130，根据所述文本，确定文本模式，并从所述文本模式中提取参考文本模式。

根据所述文本，确定文本模式包括：将识别出的所述文本中的给定词，替换为通配符（例如，任何与所述文本中其它词不相同的一个或多个字符，或者替换为能标识所述给定词的位置信息的数字），并保留所述文本中除所述给定词之外的其它词，从而确定文本模式，其中，该字符可以为“*”、“<>”或者“(.*)”等特殊字符。举例来说，当将给定词替换为与文本中其它词不相同的特殊字符“<>”时，假如服务器预先给定的给定词：商品属性品牌“XXYY”，且依照步骤110的方法找到的标题为“香港代购XXYY包”，由于标题“香港代购XXYY包”直接包含了“XX”和“YY”这两个单词，所以标题“香港代购XXYY包”直接包含给定词“XXYY”，则根据该标题，确定文本模式具体为：使用特殊字符“<>”替换给定词“XXYY”，并保留该文本中除给定词之外的其它词，最后确定的文本模式为“香港代购<>包”。

再例如，当将给定词替换为与文本中其它词不相同的能标识给定词的位置信息的数字时，假如服务器预先给定的给定词：商品属性品牌“XXYY”，且依照步骤110的方法找到的查询语句为“XXYY女包皮革长款”，由于查询语句“XXYY女包皮革长款”直接包含了“XX”和“YY”这两个单词，所以查询语句“XXYY女包皮革长款”直接包含给定词“XXYY”，则根据该查询语句，确定文本模式具体为：使用能标识给定词的位置信息的数字“1”替换给定词“XXYY”，并保留该文本中除给定词之外的其它词，最后确定的文本模式为“女包皮革长款，1”，其中，“1”表示给定词在上述查询语句中的位置。

在本申请的其它实施例中，步骤130中所述从所述文本模式中提取参考文本模式包括：

步骤1301，所述文本模式集合中的多个文本确定多个文本模式，所述多个文本模式组成文本模式集合S₁。

由于给定词在本申请中如之前所描述的不仅一个，因此，服务器对其它词也同样执行这些步骤会确定其它词的文本模式集合，或者服务器也可以根据其它方法确定其它词的文本模式集合，其它词的文本模式集合中的文本模式可以是重复的，也可以是不重复的。

步骤1302，对所述文本模式集合中的每个文本模式，根据所述文本模式出现在所述文本模式集合中的次数和所述文本模式出现在其它词的文本模式集合中的次数，计算所述文本模式的第二活跃值。

具体地，根据如下公式计算所述第二活跃值：

S₁=log(freq₁)*d_brand₁（公式1）

其中，S₁为第二活跃值，freq₁所述文本模式出现在所述文本模式集合中的次数，d_brand₁为所述文本模式出现在其它词的文本模式集合中的次数；此处的其它词也是服务器预先从网页页面信息中搜集的卖家用户提交的词和/或买家用户提交的词，当步骤110中的给定词为与商品相关的词时，其它词与上述给定词属于同一商品类别。举例来说，假如给定词为商品属性如品牌“LouisVuitton”，那么服务器预先搜集的商品属性如品牌“Coach”和“Dissona”等就可以作为其它词。

举例来说，假如对于给定词1，且根据包含有给定词1的文本确定的文本模式集合中包括10个文本模式，即C₁={模式1，模式2，模式3，……，模式10}，且假设模式1、模式4、模式8和模式9相同，模式2、模式6和模式9相同，模式3和模式7相同，则模式1出现在C₁中的次数为4，模式2出现在C₁中的次数为3，模式3出现在C₁中的次数为2，模式5出现在C₁中的次数为1，则针对模式1，上述公式1中的freq₁=4；此外，假如，服务器预先根据直接包含有与给定词1同一类别的其它词2的文本确定的文本模式集合C₁₂中包括20个模式，根据直接包含有与给定词1同一类别的其它3的文本确定的文本模式C₁₃中包括30个模式，且C₁₂中的20个模式中与C₁中模式1相同的模式个数为2，C₁₃中的30个模式中与C₁中模式1相同的模式个数为3，即模式1出现在给定词2的文本模式集合中的次数为2，模式1出现在给定词3的文本模式集合中的次数为3，也即模式1出现在其它词的文本模式集合中的次数为5，则针对模式1，上述公式1中的d_brand₁=5。即计算模式1的第二活跃值的公式1具体为：S₁=log(4)*5。同理，可以计算出模式2至模式10的第二活跃值，此处，需要说明的是，因为C₁中的部分模式相同，所以只针对不相同的模式计算第二活跃值，然后根据第二活跃值的大小，对各模式进行排序。

1303，将获得的所述第二活跃值大于预设的第二阈值的文本模式确定为参考文本模式。

在上述例子中，可以只针对模式1、模式2、模式3和模式5计算第二活跃值，假如上述四个模式对应的第二活跃值分别为0.1、0.12、0.9和0.3，则根据第二活跃值排序后为：模式3、模式5、模式2和模式1，如果预设的第二阈值为0.25，那么将模式3和模式5两个模式确定为参考文本模式。

需要说明的是，上述预设的第二阈值是预先设定的，可以根据实际情况设定大小，保存在服务器中。

步骤140，将所述文本加入同义词文本库中。

当依照步骤120中的方法，依次识别与给定词有关联关系的文本集合中的每个文本是否直接包含给定词时，当该文本不直接包含给定词，将该文本加入用于查找同义词的同义词文本库中。举例来说，假如，给定词为商品属性如品牌“XXYY”，其中，“XXYY”为描述上述商品的品牌的英文文本，与“XXYY”对应的中文文本为“AABB”，且依照步骤110的方法找到的文本是商品标题，而该标题为“香港代购AABB包”，因为标题“香港代购AABB包”中只包含了给定词“XXYY”的中文名称，并没有直接包含“XX”和“YY”这两个单词，所以标题“香港代购AABB包”不直接包含给定词，将该标题加入同义词文本库中。

再例如，假如给定词为商品属性如品牌“XXYY”，其中，“XXYY”为描述上述商品的品牌的英文文本，与“XXYY”对应的英文缩写为“XY”，且依照步骤110的方法找到的文本是查询语句，而该查询语句为“XY女包皮革长款”，因为查询语句“XY女包皮革长款”中只包含了给定词“XXYY”的英文缩写，并没有直接包含“XX”和“YY”这两个单词，所以查询语句“XY女包皮革长款”不直接包含给定词，将该查询语句也加入同义词文本库中。

需要说明的是，步骤130与步骤140没有先后顺序限定。

步骤150，根据所述参考文本模式，从所述同义词文本库中提取所述给定词的同义词，将提取的同义词作为所述给定词的同义词。

具体来说，假如服务器预先给定的给定词：商品属性品牌“XXYY”，且选取的多个参考文本模式中的一个文本模式为：“香港代购<>包”，同义词文本库包括标题“香港代购AABB包”和“香港代购AABBC包”等。具体地，首先将参考文本模式集合中的“香港代购<>包”和上述标题进行匹配，可以得到匹配的结果，即文本“香港代购AABB包”和“香港代购AABBC包”，根据上述匹配结果，可以提取给定词“XXYY”的同义词“AABB”和“AABBC”。

再例如，假如服务器预先给定的给定词：商品属性品牌“XXYY”，且选取的多个参考文本模式中的一个文本模式为：“女包皮革长款，1”，同义词文本库包括查询语句“XY女包皮革长款”和“XY包”等。具体地，首先将参考文本模式集合中的“女包皮革长款，1”和上述查询语句进行匹配，可以得到匹配的结果，即文本“XY女包皮革长款”，根据上述匹配结果，可以提取给定词“XXYY”的同义词“XY”。当将多个参考文本模式中的每个参考文本模式与同义词文本库中的每一个文本进行一一匹配之后，就可以提取到给定词的所有同义词，由这些提取到的同义词组成同义词集合C₂。

在本申请的其它实施例中，步骤150中从所述同义词文本库中提取所述给定词的同义词，将提取的同义词作为所述给定词的同义词具体包括：

步骤A，将提取的所述给定词的同义词组成同义词集合。

由于给定词在本申请中如之前所描述的不只一个，因此，服务器对其它词也同样执行这些步骤会确定其它词的同义词集合，或者服务器也可以根据其它方法确定其它词的同义词集合，其它词的同义词集合中的同义词可以是重复的，也可以是不重复的。

步骤B，对所述同义词集合中的每个同义词，根据所述参考文本模式的个数，所述同义词出现在所述同义词集合中的次数和所述同义词出现在其它词的同义词集合中的集合个数，确定第一目标同义词，将所述第一目标同义词作为所述给定词的同义词。

在本申请的其它实施例中，步骤B具体包括：

步骤B1，对每个同义词，根据所述参考文本模式的个数，所述同义词出现在所述同义词集合中的次数和所述同义词出现在其它词的同义词集合中的集合个数，计算所述同义词的第一活跃值。

具体地，根据如下公式计算所述第一活跃值：

S₂=freq₂*d_pattern₂/sqr(d_brand₂)（公式2）

其中，S₂为第一活跃值，d_pattern₂为所述参考文本模式的个数，freq₂为所述同义词出现在所述同义词集合中的次数，d_brand₂为所述同义词出现在其它词的同义词集合中的集合个数；此处的其它词也是服务器预先从网页页面信息中搜集的卖家用户提交的词和/或买家用户提交的词，当步骤110中的给定词为与商品相关的词时，其它词与上述给定词属于同一商品类别。举例来说，假如给定词为商品属性如品牌“LouisVuitton”，那么服务器预先搜集的商品属性如品牌“Coach”和“Dissona”等就可以作为其它词。

举例来说，假如对于给定词1，依照步骤130中的方法提取到的参考文本模式的个数为2，则上述公式2中的d_pattern₂=2；且根据上述两个参考文本模式从同义词文本库中提取到的同义词的个数为10个，即同义词集合C₂={同义词1，同义词2，同义词，……，同义词10}，且假设同义词1、同义词4、同义词8和同义词9相同，同义词2、同义词6和同义词9相同，同义词3和同义词7相同，则同义词1出现在C₂中的次数为4，同义词2出现在C₂中的次数为3，同义词3出现在C₂中的次数为2，同义词5出现在C₂中的次数为1，则针对同义词1，上述公式2中的freq₂=4；此外，假如，与给定词1同一类别的其它词2的同义词集合C₂₂中同义词的个数为20个，与给定词1同一类别的其它词3的同义词集合C₂₃中同义词的个数为30个，且C₂₂中的同义词10与C₂中同义词1相同，C₂₃中没有与C₁中同义词1相同的同义词，即同义词1出现在其它词的同义词集合中的集合个数为1，则针对同义词1，上述公式2中的d_brand₂=1。即计算同义词1的第一活跃值的公式2具体为：S₂=4*2/sqr(1)。同理，可以计算出同义词2至同义词10的第一活跃值，此处，需要说明的是，因为C₂中的部分同义词相同，所以只针对不相同的同义词计算第一活跃值，然后根据第一活跃值的大小，对各同义词进行排序。

步骤B2，将获得的所述第一活跃值大于预设的第一阈值的同义词确定为第一目标同义词。

在上述例子中，可以只针对同义词1、同义词2、同义词3和同义词5计算第一活跃值，假如上述四个同义词对应的第一活跃值分别为100、120、900和300，则根据第一活跃值排序后为：同义词3、同义词5、同义词2和同义词1，如果预设的第一阈值为250，那么将同义词3和同义词5同义词确定为第一目标同义词。

需要说明的是，上述预设的第一阈值是预先设定的，可以根据实际情况设定大小，保存在服务器中。

进一步的，所述方法还可以包括：将所述第一目标同义词与预设的同义词库中同义词进行比对，将比对一致的同义词，确定第二目标同义词。

具体地，在依照步骤B2的方法确定第一目标同义词之后，服务器还可将该第一目标同义词与预设的同义词库中同义词进行比对，其中，预设的同义词库中同义词是人工预先搜集的，保存在服务器中，将比对一致的同义词，确定为第二目标同义词，否则只是将该第一目标同义词当作备用，在后续重复进行步骤110-步骤150的过程中再确定是否将该第一目标同义词确定为第二目标同义词。例如，假如服务器预先给定的给定词：商品属性品牌“XXYY”，且依照本申请的方法确定的给定词“XXYY”第一目标同义词为“AABB”，预设的同义词库包括同义词“XY”和“AABB”，因为预设的同义词库中包括与第一目标同义词比对一致的同义词，所以将第一目标同义词“AABB”确定为第二目标同义词。

第二目标同义词是本申请方法最后得到的同义词，将应用于以后的用户在商务网站上进行搜索的场景中，以便以后用户在搜索时输入关键字后，不仅可以显示与该关键字相关的信息，而且还能显示与该关键字的同义词相关的信息，这样可以显示更多的搜索信息。

上述描述的本申请方法的执行主体是服务器，但并不限于服务器，凡是具有信息处理能力的设备均可以作为本申请方法的执行主体。

本申请实施例提供的方法，用于提取文本模式的文本与给定词之间的关系是明确的，根据该文本找到的同义词就会与给定词具有非常直接的关系，因此，可以提高同义词确定的全面性和准确性。

图2为本申请实施例二提供的同义词的搜索方法的流程图。该实施例二中利用实施例一确定出的同义词，进行搜索。关于同义词的确定部分，可以参照实施例一。所述方法的执行主体可以是服务器，具体可包括以下步骤：

步骤210，接收搜索请求，所述搜索请求中包括关键词；

步骤220，根据所述关键词，从数据库中查找到确定的同义词；

步骤230，根据所述关键词和所述同义词，进行搜索；

具体地，步骤220中确定同义词的步骤包括：

可选地，所述从所述同义词文本库中提取所述给定词的同义词，将提取的同义词作为所述给定词的同义词的步骤，具体包括：

将提取的所述给定词的同义词组成同义词集合；

对所述同义词集合中的每个同义词，根据所述参考文本模式的个数，所述同义词出现在所述同义词集合中的次数和所述同义词出现在其它词的同义词集合中的集合个数，确定第一目标同义词，将所述第一目标同义词作为所述给定词的同义词。

可选地，所述对所述同义词集合中的每个同义词，根据所述参考文本模式的个数，所述同义词出现在所述同义词集合中的次数和所述同义词出现在其它词的同义词集合中的集合个数，确定第一目标同义词，包括：

对每个同义词，根据所述参考文本模式的个数，所述同义词出现在所述同义词集合中的次数和所述同义词出现在其它词的同义词集合中的集合个数，计算所述同义词的第一活跃值；

将获得的所述第一活跃值大于预设的第一阈值的同义词确定为第一目标同义词。

可选地，当所述给定词为与商品相关的词时，所述其它词与所述给定词属于同一商品类别。

可选地，所述根据所述参考文本模式的个数，所述同义词出现在所述同义词集合中的次数和所述同义词出现在其它词的同义词集合中的集合个数，计算所述同义词的第一活跃值包括：

根据如下公式计算所述第一活跃值：

S₂=freq₂*d_pattern₂/sqr(d_brand₂)

其中，S₂为第一活跃值，d_pattern₂为所述参考文本模式的个数，freq₂为所述同义词出现在所述同义词集合中的次数，d_brand₂为所述同义词出现在其它词的同义词集合中的集合个数。

可选地，所述从所述文本模式中提取参考文本模式包括：

所述文本模式集合中的多个文本确定多个文本模式，所述多个文本模式组成文本模式集合；

对所述文本模式集合中的每个文本模式，根据所述文本模式出现在所述文本模式集合中的次数和所述文本模式出现在其它词的文本模式集合中的次数，计算所述文本模式的第二活跃值；

将获得的所述第二活跃值大于预设的第二阈值的文本模式确定为参考文本模式。

可选地，所述对所述文本模式集合中的每个文本模式，根据所述文本模式出现在所述文本模式集合中的次数和所述文本模式出现在其它词的文本模式集合中的次数，计算所述文本模式的第二活跃值包括：

根据如下公式计算所述第二活跃值：

S₁=log(freq₁)*d_brand₁

其中，S₁为第二活跃值，freq₁所述文本模式出现在所述文本模式集合中的次数，d_brand₁为所述文本模式出现在其它词的文本模式集合中的次数。

可选地，所述根据所述文本，确定文本模式包括：

将识别出的所述文本中的给定词，替换通配符，保留所述文本中除所述给定词之外的其它词，从而确定文本模式。

可选地，所述方法还包括：

将所述第一目标同义词与预设的同义词库中同义词进行比对，选择比对一致的同义词确定为第二目标同义词。

本申请实施例提供的方法，用于提取文本模式的文本与给定词之间的关系是明确的，根据该文本找到的同义词就会与给定词具有非常直接的关系，因此，可以提高同义词确定的全面性和准确性，从而可以提高搜索结果的准确性和效率。

图3为本申请实施例三提供的服务器示意图。所述服务器可以用于执行图1所述的方法。图3中，该服务器包括：搜集单元301、第一确定单元302、第二确定单元303和提取单元304。

搜集单元301，用于搜集与预先给定的给定词有关联关系的文本集合，所述文本集合中包括多个文本。

第一确定单元302，用于当识别到所述文本中直接包含所述给定词时，则根据所述文本，确定文本模式，并从所述文本模式中提取参考文本模式。

在本申请的其它实施例中，第一确定单元302具体用于：所述文本模式集合中的多个文本确定多个文本模式，所述多个文本模式组成文本模式集合；对所述文本模式集合中的每个文本模式，根据所述文本模式出现在所述文本模式集合中的次数和所述文本模式出现在其它词的文本模式集合中的次数，计算所述文本模式的第二活跃值；将获得的所述第二活跃值大于预设的第二阈值的文本模式确定参考文本模式。

具体地，第一确定单元302根据如下公式计算所述第二活跃值：

S₁=log(freq₁)*d_brand₁

可选地，第一确定单元302还具体用于：将识别出的所述文本中的给定词，替换为通配符，并保留所述文本中除所述给定词之外的其它词，从而确定文本模式。

第二确定单元303，用于当识别到所述文本中不直接包含所述给定词时，将所述文本加入同义词文本库中。

提取单元304，用于根据所述参考文本模式，从所述同义词文本库中提取所述给定词的同义词，将提取的同义词作为所述给定词的同义词。

在本申请的其它实施例中，提取单元304具体用于：将提取的所述给定词的同义词组成同义词集合；对所述同义词集合中的每个同义词，根据所述参考文本模式的个数，所述同义词出现在所述同义词集合中的次数和所述同义词出现在其它词的同义词集合中的集合个数，确定第一目标同义词，将所述第一目标同义词作为所述给定词的同义词。

可选地，提取单元304还具体用于：对每个同义词，根据所述参考文本模式的个数，所述同义词出现在所述同义词集合中的次数和所述同义词出现在其它词的同义词集合中的集合个数，计算所述同义词的第一活跃值；将获得的所述第一活跃值大于预设的第一阈值的同义词确定为第一目标同义词。

具体地，提取单元304根据如下公式计算所述第一活跃值：

S₃=freq₃*d_pattern₃/sqr(d_brand₃)

其中，S₃为第一活跃值，d_pattern₃为所述参考文本模式的个数，freq₃为所述同义词出现在所述同义词集合中的次数，d_brand₃为所述同义词出现在其它词的同义词集合中的集合个数。

可选地，所述服务器还包括：比对单元305，用于将所述第一目标同义词与预设的同义词库中同义词进行比对，选择比对一致的同义词确定为第二目标同义词。

本申请实施例三提供的服务器植入了本申请实施例一提供的方法，因此，本申请提供的服务器的具体工作过程，在此不复赘述。

本申请实施例提供的服务器，用于提取文本模式的文本与给定词之间的关系是明确的，根据该文本找到的同义词就会与给定词具有非常直接的关系，因此，可以提高同义词确定的全面性和准确性，从而可以提高搜索结果的准确性和效率。

图4为本申请实施例四提供的服务器示意图。所述服务器可以用于执行图2所述的方法。图4中，该服务器包括：接收单元401、查找单元402和发送单元403。

接收单元401，用于接收搜索请求，所述搜索请求中包括关键词。

查找单元402，用于根据所述关键词，从数据库中查找确定的同义词。

查找单元402具体用于：

发送单元403，用于根据所述关键词和所述同义词，进行搜索，并将根据所述关键词和所述同义词搜索得到的搜索结果发送给用户终端。

将提取的所述给定词的同义词组成同义词集合；

根据如下公式计算所述第一活跃值：

S₂=freq₂*d_pattern₂/sqr(d_brand₂)

可选地，所述从所述文本模式中提取参考文本模式包括：

根据如下公式计算所述第二活跃值：

S₁=log(freq₁)*d_brand₁

可选地，所述根据所述文本确定文本模式包括：

将识别出的所述文本中的给定词，替换通配符，并保留所述文本中除所述给定词之外的其它词，从而确定文本模式。

可选地，所述方法还包括：

本申请实施例四提供的服务器植入了本申请实施例二提供的方法，因此，本申请提供的服务器的具体工作过程，在此不复赘述。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施方式而已，并不用于限定本申请的保护范围，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

本申请经常应用在电子商务网站，例如在淘宝网页面中，用户想要搜索商品信息时，在搜索框中输入关键字，但当输入的关键字不规范时，通常会搜索不到用户想要的信息。因此就需要服务器预先获取这些关键字的同义词，这样，即便以后用户输入的关键字不规范，搜索结果也能向用户显示出与输入的关键字及该关键字的同义词相关的信息。

Claims

1.一种同义词的确定方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述从所述同义词文本库中提取所述给定词的同义词，将提取的同义词作为所述给定词的同义词，包括：

将提取的所述给定词的同义词组成同义词集合；

3.根据权利要求2所述的方法，其特征在于，所述对所述同义词集合中的每个同义词，根据所述参考文本模式的个数，所述同义词出现在所述同义词集合中的次数和所述同义词出现在其它词的同义词集合中的集合个数，确定第一目标同义词，包括：

4.根据权利要求2或3所述的方法，其特征在于，当所述给定词为与商品相关的词时，所述其它词与所述给定词属于同一商品类别。

5.根据权利要求3所述的方法，其特征在于，所述根据所述参考文本模式的个数，所述同义词出现在所述同义词集合中的次数和所述同义词出现在其它词的同义词集合中的集合个数，计算所述同义词的第一活跃值包括：

根据如下公式计算所述第一活跃值：

S₂=freq₂*d_pattern₂/sqr(d_brand₂)

6.根据权利要求1所述的方法，其特征在于，所述从所述文本模式中提取参考文本模式包括：

7.根据权利要求6所述的方法，其特征在于，所述对所述文本模式集合中的每个文本模式，根据所述文本模式出现在所述文本模式集合中的次数和所述文本模式出现在其它词的文本模式集合中的次数，计算所述文本模式的第二活跃值包括：

根据如下公式计算所述第二活跃值：

S₁=log(freq₁)*d_brand₁

8.根据权利要求1-7任一所述的方法，其特征在于，所述根据所述文本，确定文本模式包括：

将识别出的所述文本中的给定词，替换为通配符，并保留所述文本中除所述给定词之外的其它词，从而确定文本模式。

9.根据权利要求6所述的方法，其特征在于，所述方法还包括：

将所述第一目标同义词与预设的同义词库中同义词进行比对，将比对一致的同义词确定为第二目标同义词。

10.一种同义词的搜索方法，其特征在于，所述方法包括：

接收搜索请求，所述搜索请求中包括关键词；

根据所述关键词，从数据库中查找到确定的同义词；

根据所述关键词和所述同义词，进行搜索；

其中，确定同义词的步骤包括：

11.一种服务器，其特征在于，所述服务器包括：搜集单元、第一确定单元、第二确定单元和提取单元；

12.一种服务器，其特征在于，所述服务器包括：接收单元、查找单元和发送单元；

所述查找单元具体用于：