CN104978356A

CN104978356A - 一种同义词的识别方法及装置

Info

Publication number: CN104978356A
Application number: CN201410143864.9A
Authority: CN
Inventors: 陈俊波; 王力; 李红松; 庞昂博; 陈春明
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2014-04-10
Filing date: 2014-04-10
Publication date: 2015-10-14
Anticipated expiration: 2034-04-10
Also published as: HK1213331A1; CN104978356B

Abstract

本申请涉及一种同义词的识别方法，该方法包括：根据待测描述文本，使用属性词识别模型，获取待测描述文本的属性词和与属性词相对应的类型；根据属性词和与属性词相对应的类型，结合用户行为日志，计算属性词之间的关联性特征；根据从属性词中选择的样本属性词之间的关联性特征和样本属性词之间的文本特征，进行同义词识别模型的训练，以得到同义词识别模型；以及根据待测属性词之间的关联性特征和待测属性词之间的文本特征，使用同义词识别模型，识别各待测属性词之间是否是同义词，以进行后续处理。根据本申请的技术方案，能提高同义词识别的全面性和准确性，从而提高检索结果的准确性和效率。

Description

一种同义词的识别方法及装置

技术领域

本申请涉及互联网领域，更具体地涉及一种同义词的识别方法及装置。

背景技术

在电子商务领域，对商品的描述可以使用不同种类的属性描述词，即属性词。例如，“香奈儿”是商品的品牌属性词，“全棉”是商品的材质属性词，“钱包”是产品属性词，“Galaxy”是型号属性词。由于自然语言的丰富性，在使用属性词的过程中，存在大量同义的非规范的使用情况。例如，品牌属性词“香奈儿”可能的同义词有“夏奈儿”，“香耐尔”，“Chanel”，“双C”，“小香”等；材质属性词“全棉”的同义词可以有“纯棉”，“100％棉”，“百分百棉”等。在电子商务领域的商品管理中，为了让出售的商品被更多的买家检索到，也为了让买家能方便地检索到需要的商品，对属性词的同义词识别是需要解决的核心问题。

2010年10月27日公开了名称为“识别同义词的方法、装置及利用其进行搜索的方法和装置”的(申请号：200910137633)专利申请。该申请公开了一种识别中文同义词的方法和装置以及利用其进行搜索的方法和装置，所述方法通过确定需要识别的两个中文词之间的最小编辑距离，并且通过判断这两个中文词是否都存在于预设的知识库中，来判定所述两个中文词是否为同义词。这种方法存在以下缺陷：

首先，其同义词的识别基于编辑距离，但是，若实质上为同义词的两个词的在文本上不是非常接近，即编辑距离很远，则无法识别出同义词。例如，在电子商务领域中，编辑距离远的同义词有很多，例如“香奈儿”和“双C”的编辑距离很远，但它们却是同义词；

其次，其同义词的识别依赖于知识库的内容，若非知识库中的内容则无法识别出同义词。例如，在电子商务系统中，文本内容非常丰富，知识库中能涵盖到的内容往往很有限，通常只涵盖某个概念的规范表达。例如“香奈儿”可能是知识库中收录的规范表达，但“夏奈尔”，“双C”，“小香”这样的别称无法保证收录在知识库中。

因此，通过上述方法能识别出的同义词覆盖范围非常有限，很多属于同义词的属性词无法被识别出来，这影响了同义词识别的全面性和准确性，从而影响了检索结果的准确性和效率。

发明内容

本申请的主要目的在于，针对上述缺陷，提供一种同义词的识别技术，以解决现有技术依赖编辑距离和知识库识别同义词的问题，提高同义词识别的全面性和准确性，从而提高检索结果的准确性和效率。

根据本申请的第一方面，提供一种同义词的识别方法，其特征在于，包括：根据待测描述文本，使用属性词识别模型，获取待测描述文本的属性词和与属性词相对应的类型；根据属性词和与属性词相对应的类型，结合用户行为日志，计算属性词之间的关联性特征；根据从属性词中选择的样本属性词之间的关联性特征和样本属性词之间的文本特征，进行同义词识别模型的训练，以得到同义词识别模型；以及根据待测属性词之间的关联性特征和待测属性词之间的文本特征，使用同义词识别模型，识别各待测属性词之间是否是同义词，以进行后续处理。

根据本申请的第二方面，提供一种同义词的识别装置，其特征在于，包括：属性词获取模块，用于根据待测描述文本，使用属性词识别模型，获取待测描述文本的属性词和与属性词相对应的类型；关联性计算模块，用于根据属性词和与属性词相对应的类型，结合用户行为日志，计算描述文本中同一类型的属性词之间的关联性特征；同义词识别模型得到模块，用于根据从属性词中选择的样本属性词的属性词之间的关联性特征和样本属性词之间的文本特征，进行同义词识别模型的训练，以得到同义词识别模型；以及同义词识别模块，用于根据待测属性词之间的关联性特征和待测属性词之间的文本特征，使用同义词识别模型，识别各待测属性词之间是否是同义词，以进行后续处理。

与现有技术相比，根据本申请的技术方案，能够依据用户行为识别同义词，从而有效识别在文本上差异较大的同义词。并且，将各文本确定为不同类型的属性词，基于不同的属性词类型的对属性词进行同义词的判断，能更好的提升判断结果的准确率。本申请的方案不依赖知识库和编辑距离，具有较好的泛化能力，能够识别出没有出现在知识库中的词，从而提高同义词识别的全面性和准确性，近而提高检索结果的准确性和效率，更好地满足实际应用的需要。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请一个实施例的同义词的识别方法的流程图；

图2是根据本申请一个实施例的优化的属性词识别模型的训练方法的流程图；

图3是根据本申请一个实施例的同义词识别模型训练方法的流程图；

图4是根据本申请一个实施例的使用图3得到的同义词识别模型识别同义词的方法的流程图；

图5是根据本申请一个实施例的同义词的识别装置的框图；

图6是根据本申请一个实施例的异构网络图的示意图；

图7是图6中的异构网络图的子图；以及

图8是根据本申请一个实施例的异构网络图的子图。

具体实施方式

本申请的主要思想在于，通过获取数据对象的描述文本的属性词和与所述属性词相对应的类型，并且结合用户行为日志和文本特征，可以得到同义词识别模型，根据该模型可以确定同一类型的任意两个属性词是否是同义词。本方案能够依据用户行为日志识别同义词，从而有效识别在文本上差异较大的同义词。并且，将各描述文本划分为不同类型的属性词，基于不同的属性词的类型进行同义词的判断，能更好的提升判断结果的准确率。本申请的方案不依赖知识库和编辑距离，具有较好的泛化能力，能够识别出没有出现在知识库中的词是否是同义词，从而提高同义词识别的全面性和准确性，更好地满足实际应用的需要。

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为描述本申请的方案，下面将以数据搜索处理量巨大且易理解的电子商务平台为例，进行具体说明。

为了方便下文描述，先介绍部分术语解释。

行为日志：用户在网站上的各种操作都会被记录下来作为用户的行为日志，比如：搜索、点击、浏览品类下的对象、查看搜索结果、在数据对象的详情页上的操作以及这些行为的发生时间，等等。

卖家行为：为了让出售的商品被更多的买家检索到，卖家倾向于将与所出售商品相关的各种同义词罗列在商品的标题和商品的属性值中。例如，为了让买家能方便的检索到自己的商品，一个卖家可以这样的标题描述一个商品：“英国代购Chanel香奈儿女包双C康鹏长款对折皮夹羊皮钱包黑色现货”。其中，“Chanel”、“香奈儿”和“双C”，两两之间是同义词。

买家的行为：当买家用某个属性词进行搜索时，买家倾向于在搜索结果中点击包含与该属性词具有相同语义的商品。例如，当买家搜索了“Chanel”时，买家倾向于点击包含与“Chanel”具有相同语义例如“香奈儿”，“双C”的商品。

参考图1，图1是根据本申请一个实施例的同义词的识别方法100的流程图。如图1所示，方法100开始于步骤101。

在步骤101，根据待测描述文本，使用属性词识别模型，获取待测描述文本的属性词和与所述属性词相对应的类型。

具体而言，对一个数据对象的文本描述，可以由不同属性的词组成，这些用于描述一个数据对象的词的集合即为对一个对象的描述文本。例如，在电子商务领域中，通常可以将在一件商品的描述文本中所有可能出现的词分为五种类型：品牌属性词，产品属性词，材质属性词，型号属性词，普通属性词。采用这五种不同种类属性词的分类方式的原因在于，在电子商务的应用中，除普通属性词之外的四种属性词在绝大部分情况下，已经足够描述一个具体的商品。例如，一个商品的描述文本为“RIBECS伊贝诗正品珍珠润白保湿营养水100g美白补水柔润保湿”，其中“RIBECS”和“伊贝诗”是品牌属性词，“保湿营养水”是产品属性词，“珍珠润白”是材质属性词，剩余的是普通属性词。

根据本申请的一个实施例，数据对象的文本描述可以包括数据对象的标题和用户的检索词。

本申请通过从数据对象数据库和用户行为日志中收集数据对象的描述文本作为样本，使用例如通用的CRF模型进行属性词识别模型的训练，从而得到属性词识别模型。然后利用训练得到的属性词识别模型，可以获取数据库和用户行为日志中的待测描述文本的属性词及其类型。

在步骤102，根据所述属性词和与属性词相对应的类型，结合用户行为日志，计算属性词之间的关联性。

具体而言，基于步骤101，可以获取数据库和用户行为日志中的每一个数据对象的描述文本的属性词及其类型。例如，对电子商务系统中的商品标题和检索词进行属性词识别。每一个商品可以用该商品标题中包含的属性词及其类型的集合来表示：商品a＝{e₁：t₁，e₂：t₂，...，e_A：t_A}，其中，e₁～e_A分别表示商品a包含的属性词，t₁～t_A分别表示与每个属性词相对应的类型。同样地，每一个检索词也可以用该检索词中包含的属性词及其类型的集合来表示，例如：检索词q＝{e₁：t₁，e₂：t₂，...，e_Q：t_Q}，其中，e₁～e_Q分别表示检索词q包含的属性词，t₁～t_Q分别表示与每个属性词相对应的类型。

在电子商务领域中，用户行为通常分为两种，买家行为和卖家行为。卖家行为是指，为了让出售的商品被更多的买家检索到，卖家倾向于将与所出售商品相关的各种同义词罗列在商品的标题和商品的属性值中。例如，为了让买家能方便的检索到自己的商品，一个卖家会这样书写一个商品的标题：“英国代购Chanel香奈儿女包双C康鹏长款对折皮夹羊皮钱包黑色现货”。其中“Chanel”，“香奈儿”，“双C”是同义词。买家的行为是指，当买家用某个属性词进行搜索时，买家倾向于在搜索结果中点击包含与该属性词具有相同语义的商品。例如，当买家搜索了“Chanel”时，倾向于点击包含与“Chanel”具有相同语义的商品，例如“香奈儿”，“双C”。

在这里，关联性有两种不同类型的定义，一种是由卖家行为定义的关联性，一种是由买家行为定义的关联性。通过分别计算买家行为中两个属性词e_i和e_j相互之间的条件概率P_buyer(e_i|e_j)和P_buyer(e_j|e_i)，和卖家行为中两个属性词e_i和e_j相互之间的条件概率P_seller(e_i|e_j)和P_seller(e_j|e_i)，可以得到属性词两两之间的关联性。

需要指出的是，在计算属性词之间的关联性时，要求属性词的类型相同。这是因为即使两个属性词之间有很强的关联性，但如果类型不同，则它们之间不能成为同义词的关系。例如，属性词“手机”和属性词“苹果”之间有很强的关联性，但如果他们的类型不同，则不能成为同义词。

在步骤103，根据从属性词中选择的样本属性词之间的关联性特征和样本属性词之间的文本特征，进行同义词识别模型的训练，以得到同义词识别模型。

具体而言，对于任意两个属性词e_i，和e_j，可以将其作为一个属性词二元组＜e_i，e_j＞。基于步骤102，可以得到买家行为中两个属性词e_i和e_j相互之间的条件概率P_buyer(e_i|e_j)和P_buyer(e_j|e_i)，和卖家行为中两个属性词e_i和e_j相互之间的条件概率P_seller(e_i|e_j)和P_seller(e_j|e_i)。同时，通过计算，还可以得到属性词的文本特征，例如Cosine距离，编辑距离等。人工从所有属性词中采集一批样本属性词，将上述样本属性词之间的关联性特征和文本特征作为样本特征，对样本属性词二元组打上同义与非同义的标签，作为训练目标，使用例如逻辑回归模型进行训练，从而将训练后得到的模型作为同义词识别模型。

在步骤104，根据待测属性词之间的关联性特征和待测属性词之间的文本特征，使用所述同义词识别模型，识别数据库中各待测属性词之间是否是同义词，以进行后续处理。

具体而言，在得到同义词识别模型后，可以将数据库中任意两个同一类型的属性词作为待测属性词，提取该两个待测属性词之间的关联性特征和文本特征，并使用同义词识别模型，确定这两个属性词是同义词的概率。当得到的概率大于或等于预设值时，则认为这两个属性词是同义词，当得到的概率小于预设值时，则认为这两个属性词不是同义词。在确定待测属性词之间是否是同义词后，可以利用该结果进行所需要的后续处理。例如，在向用户提供搜索处理结果时，利用用户输入的检索关键词找到该关键词的同义词，并调整含有该同义词的数据对象的排序因子的大小。

本申请实施例通过获取数据对象的描述文本的属性词和与属性词相对应的类型，并且结合用户行为日志和文本特征，可以得到同义词识别模型，根据该模型可以确定同一类型的任意两个属性词是否是同义词。并且，依据用户行为日志识别同义词，从而有效识别在文本上差异较大的同义词。并且，通过将各描述文本划分为不同类型的属性词，基于不同的属性词的类型进行同义词的判断，能更好的提升判断结果的准确率。与现有技术相比，本申请的方案不依赖知识库和编辑距离，具有较好的泛化能力，能够识别出没有出现在知识库中的词，从而提高同义词识别的全面性和准确性，更好地满足实际应用的需要。

图2是根据本申请一个实施例的优化的属性词识别模型的训练方法200的流程图。如图2所示，方法200开始于步骤201。

在步骤201，将样本描述文本切分为属性词的集合，并且对所述属性词的集合中的属性词标注类型。

具体地，可以从数据库中选取部分数据对象的描述文本作为样本描述文本，并且将每一个描述文本人工切分为属性词的集合，同时，对所切分出的属性词进行属性词类型的标注。

在步骤202，根据样本描述文本和切分并标注过的属性词的集合，利用判别模型进行机器学习的训练，以得到属性词识别模型。

在这个过程中，可以采用CRF(Conditional Random Field，条件随机域)模型进行属性词识别模型的训练。CRF模型是一种用来标记和切分序列化数据的统计模型，该模型在给定观测序列的条件下，计算对观测序列进行切分和标记后的序列的联合后验概率。

CRF模型定义切分序列的联合后验概率为：

为观测序列，为切分序列，为归一化因子，为第j个特征，λ_j为待学习的参数。

在本申请中，例如，可以将每一个数据对象的描述文本单字切分为字的集合，将其作为观测序列可以将每一个单字所对应的属性词的类型标记作为切分序列对的特征提取可以包括如下特征：

1)位置信息

例如，一个可能的位置信息特征定义和相对应的特征值如下：

2)上下文信息

例如，一个可能的上下文信息特征定义和相对应的特征值如下：

3)词性信息

例如，一个可能的词性信息定义和相对应的特征值如下：

4)语言类型信息

例如，一个可能的语言类型信息特征定义和相对应的特征值如下：

5)特殊词汇信息

例如，一个可能的特殊词汇信息定义和相对应的特征值如下：

其中，C可以是任意一种属性词类型，例如“品牌属性词”。

在数据库中人工选取样本描述文本，对这些样本描述文本进行属性词的切分和标记，并且提取上述特征后，利用CRF模型进行训练，可以得到待学习的参数λ_j，从而得到可以用于切分属性词和标记属性词类型的属性词识别模型。

在步骤203，根据待测描述文本，使用属性词识别模型，获取待测描述文本的属性词和与属性词相对应的类型。

在这个步骤中，所输入的特征与步骤202中的特征相同。可以从数据库中或用户日志中搜索词中选择待测描述文本，通过使用训练得到的属性词识别模型，可以计算出待测描述文本属于不同的属性词集合以及各属性词的类型的概率，选择概率最大值所对应的属性词集合以及各属性词的类型作为该待测描述文本的属性词集合以及各属性词的类型。

通过步骤201至步骤203，可以有效挖掘得到数据对象的描述文本的属性词的文本结果以及与各属性词相对应的类型。但是，通过通用CRF模型训练得到的属性词识别模型无法处理属性词固有的歧义性问题。例如，在电子产品的上下文中，“苹果”这个文本是一个品牌词；但在水果的上下文中，“苹果”这个文本是一个产品词。又例如，“HR”在化妆品的上下文中，是一个品牌词(的缩写)；但在教育的上下文中，“HR”这个文本又是一个普通词。因此，通过下面的步骤204和步骤205，可以解决属性词识别模型无法处理的属性词固有的歧义性问题。

在步骤204，根据所述属性词和与所述属性词相对应的类型，计算有共性关系的属性词之间的条件概率。

将步骤203得到的结果，即描述文本的切分后的属性词和与所述属性词相对应的类型，组织成异构网络图模型的形式。具体来说，将其中的每一个类型映射为一个节点，将属性词在各类型之间的共现关系映射为节点之间的边。例如，图6是根据本申请一个实施例的异构网络图的示意图。如图6所示，将属性词分为三个类型，品牌，产品，型号。不同的类型用不同的节点来表示。边的权重为两个属性词之间的条件概率。例如，在图6中，b_i＝“苹果(品牌)”到d_j＝“手机(产品)”的边的权重为：

即出现b_i的前提下，d_j发生的概率。同理，可以计算出d_j＝“手机(产品)”到b_i＝“苹果(品牌)”的边的权重P(b_i|d_j)，即d_j出现的前提下，b_i发生的概率。

在步骤205，根据属性词识别模型，结合有共性关系的属性词之间的条件概率，进行优化的属性词识别模型的训练，以得到优化的属性词识别模型。

将上述异构网络和CRF进行集成，得到如下优化后的CRF网络图模型：

其中，G为步骤204生成的异构网络图的子图，如图7所示，其由当前观测序列在步骤203中得到的所有可能的类型节点组成。例如，图8为根据本申请一个实施例的商品标题为“包邮送豪礼Apple/苹果手机iphone5s国行现货，超值电信”对应的子图。γ_k是待学习的参数，g_k(x_i，y_i，G)是当前类型节点y_i在异构网络图G中的特征，该特征可以提取的特征包括：

1)y_i在G中的入度

例如，在图8所示的例子中，该特征的定义和相对应的特征取值可以为：

2)y_i在G中入边上的最大权重值

例如，在图表8所示的例子中，该特征的定义和相对应的特征取值可以为：

3)y_i在G中入边上的平均权重值

4)在G中，y_i类型相同的节点个数

在得到属性词识别模型的基础上，从样本描述文本的子图中提取上述特征作为样本特征，利用上述优化后的CRF模型进行训练，可以得到待学习的参数γ_k，从而得到优化的属性词识别模型。

在步骤206，使用优化的属性词识别模型，获取待测描述文本的属性词和与属性词相对应的类型。

在这个步骤中，所输入的特征与步骤205中的模型训练的特征相同，可以从数据库中或用户日志中搜索词中选择待测描述文本，可以计算出待测描述文本属于不同的属性词集合以及各属性词的类型的概率，选择概率最大值所对应的属性词集合以及各属性词的类型作为该待测描述文本的属性词集合以及各属性词的类型。与未优化的属性词识别模型相比，优化的属性词识别模型可以解决属性词中存在的歧义性问题。通过使用优化的属性词识别模型，可以更准确地确定每一个描述文本中各属性词所对应的类型。

至此，描述了根据本申请一个实施例的优化的属性词识别模型的训练方法200的流程图。本方法200根据描述文本和切分并标注过的属性词的集合，用CRF模型进行机器学习的训练，得到属性词识别模型。并且，在属性词识别模型的基础上，通过优化CRF模型，得到优化的属性词识别模型，从而有效解决了属性词识别模型无法处理的属性词固有的歧义性问题。通过使用优化的属性词识别模型，可以得到更加准确的属性词切分和类型标注结果。

图3是根据本申请一个实施例的同义词识别模型训练方法300的流程图。如图3所示，方法300开始于步骤301。

在步骤301，根据描述文本的属性词和与所述属性词相对应的类型，获取各描述文本中同一类型的属性词。

基于上述步骤，可以获取数据库和用户行为日志中的每一个数据对象的描述文本的属性词及其类型。例如，对电子商务系统中的商品标题和检索词进行属性词识别。每一个商品可以用该商品标题中包含的属性词及其类型的集合来表示：商品a＝{e₁：t₁，e₂：t₂，...，e_A：t_A}，其中，e_l～e_A分别表示商品a包含的属性词，t₁～t_A分别表示与每个属性词相对应的类型。同样地，每一个检索词也可以用该检索词中包含的属性词及其类型的集合来表示，例如：检索词q＝{e₁：t₁，e₂：t₂，...，e_Q：t_Q}，其中，e₁～e_Q分别表示检索词q包含的属性词，t₁～t_Q分别表示与每个属性词相对应的类型。

可以对每一个数据对象的描述文本的属性词及其类型的集合进行扫描，以发现各描述文本中存在的一个以上的同一类型的属性词。在步骤302，结合用户行为日志，计算所述同一类型的属性词之间的条件概率。

在电子商务领域中，用户行为分为两种，买家行为和卖家行为。卖家行为是指，为了让出售的商品被更多的买家检索到，卖家倾向于将与所出售商品相关的各种同义词罗列在商品的标题和商品的属性值中。例如，为了让买家能方便的检索到自己的商品，一个卖家会这样书写一个商品的标题：“英国代购Chanel香奈儿女包双C康鹏长款对折皮夹羊皮钱包黑色现货”。其中“Chanel”，“香奈儿”，“双C”是同义词。买家的行为是指，当买家用某个属性词进行搜索时，买家倾向于在搜索结果中点击包含与该属性词具有相同语义的商品。例如，当买家搜索了“Chanel”时，他倾向于点击包含与“Chanel”具有相同语义的商品，例如“香奈儿”，“双C”。

在这里，关联性有两种不同类型的定义，一种是由卖家行为定义的关联性，一种是由买家行为定义的关联性。这两种关联性可以统一表示为如下的结构：

P_{type} (e_{i} | e_{j}) = \frac{{Support}_{type} (e_{i}, e_{j})}{{Support}_{type} (e_{j})}

这里type有两种可能的取值：seller(卖家)和buyer(买家)。

当type为seller(卖家)时，P_seller(e_i|e_j)衡量的是卖家行为中，e_i和e_j之间的关联性。即，e_i和e_j共同出现在商品标题中的条件概率。seller类型的Support()函数的定义如下：

Support_seller(e_i，e_j)＝同时出现e_i和e_j的商品的数量

Support_seller(e_j)＝出现e_j的商品的数量

当type为buyer(买家)时，P_buyer(e_i|e_j)衡量买家行为中，e_i和e_j之间的关联性。即，搜索了属性词e_j的用户中，有多大比例的用户点击了包含e_i的商品。buyer类型的Support()函数的定义如下：

Support_buyer(e_i，e_j)＝买家搜索词中出现e_j，且点击商品中出现e_i的点击日志的数量

Support_buyer(e_j)＝买家搜索词中出现e_j的点击日志的数量

根据上述公式，可以分别计算卖家行为和买家行为中，任意两个属性词e_i和e_j之间的条件概率P_buyer(e_i|e_j)，P_buyer(e_j|e_i)，P_seller(e_i|e_j)，P_seller(e_j|e_i)，可以将其作为属性词两两之间的关联性特征。

例如，假设e_j＝夏奈尔，e_i＝香奈儿，则：

Support_seller(e_i，e_j)＝同时出现“香奈儿“和″夏奈尔″的商品的数量

Support_seller(e_j)＝出现″夏奈尔″的商品的数量

Support_buyer(e_i，e_j)＝买家输入包含夏奈尔的搜索词后，

在搜索结果中点击包含″香奈儿″的商品的数量

Support_buyer(e_j)＝买家输入包含″夏奈尔″的搜索词后，在搜索结果中的总点击数量

在步骤303，计算样本属性词之间的编辑距离、Cosine距离和Jaccard距离，以得到样本属性词之间的文本特征。

对于样本属性词中的任意两个属性词e_i，和e_j，可以将其作为一个属性词二元组＜e_i，e_j＞。基于步骤208，可以得到属性词之间的关联性的四个特征：P_buyer(e_i|e_j)，P_buyer(e_j|e_i)，P_seller(e_i|e_j)，P_seller(e_j|e_i)。同时，通过计算，还可以得到属性词的文本特征，该文本特征可以包括：Cosine距离，编辑距离、Jaccard距离。

在步骤304，根据样本属性词之间的关联性特征和样本属性词之间的文本特征，进行同义词识别模型的训练，以得到同义词识别模型。

人工从数据库中采集一批样本属性词，将这些样本属性词之间的关联性特征(P_buyer(e_i|e_j)，P_buyer(e_j|e_i)，P_seller(e_i|e_j)，P_seller(e_j|e_i))和文本特征(Cosine距离，编辑距离、Jaccard距离)作为样本特征输入，同时，对其中的所有属性词二元组打上同义与非同义的标签，作为训练目标。在这里，可以将属性词二元组＜e_i，e_j＞表示为特征向量的形式，针对每一条训练数据＜e_i，e_j＞，都有一个标注结果通过拟合回归模型，使得该回归模型的预测结果与标注结果的误差最小。

在本申请的一个实施例中，采用逻辑回归(Logistic Regression)进行模型训练：

其中，是给定的特征向量，θ^T是待拟合的参数，是分类结果。训练过程通过标注数据，以极大似然估计的方式确定θ^T的取值，从而得到训练后的模型，即同义词识别模型。

至此，描述了根据本申请一个实施例的同义词识别模型训练方法300的流程图。该方法300通过获取属性词的关联性特征和文本特征，使用逻辑回归模型进行机器学习训练，从而得到同义词识别模型。该同义词识别模型可以对同一类型的属性词之间是否是同义词进行识别。

图4是根据本申请一个实施例的使用图3得到的同义词识别模型识别同义词的方法400的流程图。

在步骤401，根据待测属性词之间的关联性和待测属性词之间的文本特征，使用同义词识别模型，计算各待测属性词之间是同义词的概率。

在这个步骤中，使用同义词识别模型，输入同一类型的任意两个属性词e_i和e_j作为待测属性词，将与这两个属性词相对应的特征(属性词关联性和属性词文本特征)作为特征，针对每一条数据＜e_i，e_j＞，都有一个标注结果(目标)该标注结果即为属性词之间是同义词的概率。

在步骤402，判断待测属性词之间是同义词的概率是否大于等于预设值。

当待测属性词之间是同义词的概率大于或等于预设值时，进入步骤403，识别待测属性词之间是同义词。

当待测属性词之间是同义词的概率小于预设值时，进入步骤404，识别待测属性词之间不是同义词。

根据本申请的一个实施例，预设值为0到1之间的任意取值。

至此，描述了根据本申请一个实施例的使用图3得到的同义词识别模型识别同义词的方法400的流程图。该方法400根据待测属性词之间的关联性特征和待测属性词之间的文本特征，使用预先训练得到的同义词识别模型，可以识别出待测属性词之间是否是同义词，从而可以根据识别结果进行后续处理。

图5是根据本申请一个实施例的同义词的识别装置500的框图。

如图5所示，装置500可以包括：属性词获取模块510，用于根据待测描述文本，使用属性词识别模型，获取待测描述文本的属性词和与属性词相对应的类型；关联性计算模块520，用于根据属性词和与属性词相对应的类型，结合用户行为日志，计算描述文本中同一类型的属性词之间的关联性特征；同义词识别模型得到模块530，用于根据从属性词中选择的样本属性词的属性词之间的关联性特征和样本属性词之间的文本特征，进行同义词识别模型的训练，以得到同义词识别模型；以及同义词识别模块540，用于根据待测属性词之间的关联性特征和待测属性词之间的文本特征，使用同义词识别模型，识别各待测属性词之间是否是同义词，以进行后续处理。

根据本申请的一个实施例，属性词识别模型510可以通过如下模块建立：切分和标注子模块，用于将样本描述文本切分为属性词的集合，并且对属性词的集合中的属性词标注类型；以及属性词识别模型得到子模块，用于根据样本描述文本和切分并标注过的属性词的集合，利用判别模型进行机器学习的训练，以得到属性词识别模型。

根据本申请的一个实施例，装置500还可以包括：条件概率计算模块，根据属性词和与属性词相对应的类型，计算有共性关系的属性词之间的条件概率；模型优化模块，用于根据属性词识别模型，结合有共性关系的属性词之间的条件概率，进行优化的属性词识别模型的训练，以得到优化的属性词识别模型；以及第二获取模块，用于使用优化的属性词识别模型，获取待测描述文本的属性词和与属性词相对应的类型。

根据本申请的一个实施例，关联性计算模块520可以进一步包括：同类属性词获取子模块，用于根据描述文本的属性词和与属性词相对应的类型，获取各描述文本中同一类型的属性词；以及条件概率计算子模块，用于结合用户行为日志，计算同一类型的属性词之间的条件概率。

根据本申请的一个实施例，同义词识别模型得到模块530可以进一步包括：文本特征计算子模块，用于计算样本属性词之间的编辑距离、Cosine距离和Jaccard距离，以得到样本属性词之间的文本特征；以及同义词识别模型得到子模块，用于根据样本属性词之间的关联性特征和样本属性词之间的文本特征，进行同义词识别模型的训练，以得到同义词识别模型。

根据本申请的一个实施例，同义词识别模块540可以进一步包括：同义词概率计算子模块，用于根据待测属性词之间的关联性和待测属性词之间的文本特征，使用同义词识别模型，计算各待测属性词之间是同义词的概率；第一识别模块，用于当待测属性词之间是同义词的概率大于或等于预设值时，识别待测属性词之间是同义词；以及第二识别模块，用于当待测属性词之间是同义词的概率小于预设值时，识别待测属性词之间不是同义词。

根据本申请的一个实施例，描述文本可以包括数据对象的标题和用户的检索词。

由于本实施例的装置所实现的功能基本相应于前述图1所示的方法实施例，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，在此不做赘述。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种同义词的识别方法，其特征在于，包括：

根据待测描述文本，使用属性词识别模型，获取待测描述文本的属性词和与所述属性词相对应的类型；

根据所述属性词和与属性词相对应的类型，结合用户行为日志，计算属性词之间的关联性特征；

根据从属性词中选择的样本属性词之间的关联性特征和样本属性词之间的文本特征，进行同义词识别模型的训练，以得到同义词识别模型；以及

根据待测属性词之间的关联性特征和待测属性词之间的文本特征，使用所述同义词识别模型，识别各待测属性词之间是否是同义词，以进行后续处理。

2.根据权利要求1所述的方法，其特征在于，所述属性词识别模型通过如下步骤建立：

将样本描述文本切分为属性词的集合，并且对所述属性词的集合中的属性词标注类型；以及

根据样本描述文本和切分并标注过的属性词的集合，利用判别模型进行机器学习的训练，以得到属性词识别模型。

3.根据权利要求1所述的方法，其特征在于，在根据待测描述文本，使用属性词识别模型，获取待测描述文本的属性词和与所述属性词相对应的类型之后，在根据所述属性词和与属性词相对应的类型，结合用户行为日志，计算属性词之间的关联性特征的步骤之前，还包括：

根据所述属性词和与所述属性词相对应的类型，计算有共性关系的属性词之间的条件概率；

根据属性词识别模型，结合有共性关系的属性词之间的条件概率，进行优化的属性词识别模型的训练，以得到优化的属性词识别模型；以及

使用优化的属性词识别模型，获取待测描述文本的属性词和与属性词相对应的类型。

4.根据权利要求1所述的方法，其特征在于，根据所述属性词和与属性词相对应的类型，结合用户行为日志，计算属性词之间的关联性特征，进一步包括：

根据描述文本的属性词和与所述属性词相对应的类型，获取各描述文本中同一类型的属性词；以及

结合用户行为日志，计算所述同一类型的属性词之间的条件概率。

5.根据权利要求1所述的方法，其特征在于，根据从属性词中选择的样本属性词之间的关联性特征和样本属性词之间的文本特征，进行同义词识别模型的训练，以得到同义词识别模型，进一步包括：

计算样本属性词之间的编辑距离、Cosine距离和Jaccard距离，以得到样本属性词之间的文本特征；以及

根据样本属性词之间的关联性特征和样本属性词之间的文本特征，进行同义词识别模型的训练，以得到同义词识别模型。

6.根据权利要求1所述的方法，其特征在于，根据待测属性词之间的关联性特征和待测属性词之间的文本特征，使用所述同义词识别模型，识别各待测属性词之间是否是同义词，以进行后续处理，进一步包括：

根据待测属性词之间的关联性和待测属性词之间的文本特征，使用同义词识别模型，计算各待测属性词之间是同义词的概率；

当待测属性词之间是同义词的概率大于或等于预设值时，识别所述待测属性词之间是同义词；以及

当待测属性词之间是同义词的概率小于预设值时，识别所述待测属性词之间不是同义词。

7.根据上述任一项权利要求所述的方法，其特征在于，所述描述文本包括数据对象的标题和用户的检索词。

8.一种同义词的识别装置，其特征在于，包括：

属性词获取模块，用于根据待测描述文本，使用属性词识别模型，获取待测描述文本的属性词和与所述属性词相对应的类型；

关联性计算模块，用于根据所述属性词和与属性词相对应的类型，结合用户行为日志，计算描述文本中同一类型的属性词之间的关联性特征；

同义词识别模型得到模块，用于根据从属性词中选择的样本属性词的属性词之间的关联性特征和样本属性词之间的文本特征，进行同义词识别模型的训练，以得到同义词识别模型；以及

同义词识别模块，用于根据待测属性词之间的关联性特征和待测属性词之间的文本特征，使用所述同义词识别模型，识别各待测属性词之间是否是同义词，以进行后续处理。

9.根据权利要求8所述的装置，其特征在于，所述属性词识别模型通过如下模块建立：

切分和标注子模块，用于将样本描述文本切分为属性词的集合，并且对所述属性词的集合中的属性词标注类型；以及

属性词识别模型得到子模块，用于根据样本描述文本和切分并标注过的属性词的集合，利用判别模型进行机器学习的训练，以得到属性词识别模型。

10.根据权利要求8所述的装置，其特征在于，还包括：

条件概率计算模块，根据所述属性词和与所述属性词相对应的类型，计算有共性关系的属性词之间的条件概率；

模型优化模块，用于根据属性词识别模型，结合有共性关系的属性词之间的条件概率，进行优化的属性词识别模型的训练，以得到优化的属性词识别模型；以及

第二获取模块，用于使用优化的属性词识别模型，获取待测描述文本的属性词和与属性词相对应的类型。

11.根据权利要求8所述的装置，其特征在于，所述关联性计算模块进一步包括：

同类属性词获取子模块，用于根据描述文本的属性词和与所述属性词相对应的类型，获取各描述文本中同一类型的属性词；以及

条件概率计算子模块，用于结合用户行为日志，计算所述同一类型的属性词之间的条件概率。

12.根据权利要求8所述的装置，其特征在于，所述同义词识别模型得到模块进一步包括：

文本特征计算子模块，用于计算所述样本属性词之间的编辑距离、Cosine距离和Jaccard距离，以得到样本属性词之间的文本特征；以及

同义词识别模型得到子模块，用于根据样本属性词之间的关联性特征和样本属性词之间的文本特征，进行同义词识别模型的训练，以得到同义词识别模型。

13.根据权利要求8所述的装置，其特征在于，所述同义词识别模块进一步包括：

同义词概率计算子模块，用于根据待测属性词之间的关联性和待测属性词之间的文本特征，使用同义词识别模型，计算各待测属性词之间是同义词的概率；

第一识别模块，用于当待测属性词之间是同义词的概率大于或等于预设值时，识别所述待测属性词之间是同义词；以及

第二识别模块，用于当待测属性词之间是同义词的概率小于预设值时，识别所述待测属性词之间不是同义词。

14.根据上述任一项权利要求所述的装置，其特征在于，所述描述文本包括数据对象的标题和用户的检索词。