CN106156181A

CN106156181A - 一种别名获取方法及装置

Info

Publication number: CN106156181A
Application number: CN201510188142.XA
Authority: CN
Inventors: 崔安颀; 李明; 蒋欣; 李航
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2015-04-20
Filing date: 2015-04-20
Publication date: 2016-11-23
Anticipated expiration: 2035-04-20
Also published as: CN106156181B

Abstract

本发明实施例提供一种别名获取方法及装置，涉及信息处理领域，能够针对给定的全名，获取该全名对应的可能的别名。该别名获取方法，包括：获取源领域的别名预测模型和目标领域的训练数据；根据源领域的别名预测模型和目标领域的训练数据，计算目标领域的别名预测模型；根据目标领域的别名预测模型，确定目标领域内的第一全名对应的第一别名集合，第一别名集合中包括至少一个别名，第一全名为目标领域内的任一全名。

Description

一种别名获取方法及装置

技术领域

本发明涉及信息处理领域，尤其涉及一种别名获取方法及装置。

背景技术

在人机交互中，别名(包括简称类别名和俗称类别名)的出现增加了计算机自动处理的难度。对于导航软件来说，如果能够正确识别用户输入的别名，那么导航软件的智能性会得到巨大提升，人机交互也变得更加简洁、自然。

传统的别名获取方法是模板匹配方法，即预先在文档库中存储全名-别名对(一个全名和与其对应的一个别名的组合称为一个全名-别名对，一个全名可以与多个别名组成全名-别名对)，然后在文档库中进行模式匹配，找出全名对应的别名，或者别名对应的全名。但是，由于模板匹配方法中的文档库是预先设定好的，因此其可扩展性较差，在实际应用中的效果比较有限。为了解决上述模板匹配方法可扩展性差的问题，现有技术利用互联网数据中的链接关系、共现关系等挖掘全名-别名的对应关系。示例性的，在搜索引擎上搜索全名或者别名，利用链接中的锚文本得到搜索结果，从搜索结果中提取全名对应的候选别名或者别名对应的候选全名，通过筛选得到最终的全名-别名对。

然而，利用互联网数据中的链接关系、共现关系等挖掘全名-别名的对应关系依赖于互联网数据，通常情况下，对于互联网数据中没有出现或者出现频率较低的全名或者别名，现有技术不能有效获取全名对应的别名。

发明内容

本发明实施例提供的一种别名获取方法及装置，解决了当互联网数据中没有出现或者出现频率较低的全名或者别名时，现有技术不能有效获取全名对应的别名的问题，能够针对给定的全名，利用迁移学习过程有效获取该全名对应的别名。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，本发明实施例提供一种别名获取方法，包括：获取源领域的别名预测模型和目标领域的训练数据；

根据所述源领域的别名预测模型和所述目标领域的训练数据，计算所述目标领域的别名预测模型；

根据所述目标领域的别名预测模型，确定所述目标领域内的第一全名对应的第一别名集合，所述第一别名集合中包括至少一个别名，所述第一全名为目标领域内的任一全名。

结合第一方面，在第一方面的第一种可能的实现方式中，所述根据所述目标领域的别名预测模型，确定所述目标领域内的第一全名对应的第一别名集合，具体包括：

根据所述目标领域内的第一全名，构造所述第一全名的第二别名集合，所述第二别名集合中包括所述第一全名对应的所有候选别名；

提取所述第一全名和所有候选别名中每一个候选别名组成的全名-别名对的特征；

根据所述全名-别名对的特征、所述目标领域的别名预测模型，确定所述第一全名对应的第一别名集合。

结合第一方面，或者第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，根据目标领域的别名预测模型，确定目标领域内的第一全名对应的第一别名集合之后，所述方法还包括：对所述第一别名集合中的所有别名进行优先级排序。

结合第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，所述对所述第一别名集合中的所有别名进行优先级排序，具体包括：

在搜索引擎中检索第一全名和第一别名中的至少一个，获取前N个搜索结果，所述第一别名为所述第一别名集合中的任意一个别名；

统计第一全名和第一别名在前N个搜索结果中共同出现的次数；

根据所述第一全名和所述第一别名在前N个搜索结果中共同出现的次数，为所述第一别名设置优先级。

结合第一方面，在第一方面的第四种可能的实现方式中，所述获取目标领域的训练数据，具体包括：

根据所述目标领域的训练数据，提取所述目标领域的训练数据的特征，所述目标领域的训练数据的特征为所述训练数据中全名-别名对的特征，所述全名-别名对的特征至少包括所述别名中的字符在所述全名中的位置特征。

结合第一方面，在第一方面的第五种可能的实现方式中，所述根据所述源领域的别名预测模型和所述目标领域的训练数据，计算所述目标领域的别名预测模型，具体包括：

构造所述目标领域的别名预测模型λω+(1-λ)υ，其中，ω为源领域的别名预测模型，λ为权重因子，υ为目标领域的参数；

根据所述目标领域的训练数据，计算所述目标领域的别名预测模型λω+(1-λ)υ的参数υ。

第二方面，本发明实施例提供一种别名获取装置，包括：获取模块，用于获取源领域的别名预测模型和目标领域的训练数据；

计算模块，用于根据所述源领域的别名预测模型和所述目标领域的训练数据，计算所述目标领域的别名预测模型；

确定模块，用于根据所述目标领域的别名预测模型，确定所述目标领域内的第一全名对应的第一别名集合，所述第一别名集合中包括至少一个别名，所述第一全名为目标领域内的任一全名。

结合第二方面，在第二方面的第一种可能的实现方式中，所述确定模块，具体包括：

第一构造子模块，用于根据所述目标领域内的第一全名，构造所述第一全名的第二别名集合，所述第二别名集合中包括所述第一全名对应的所有候选别名；

提取子模块，用于提取所述第一全名和所有候选别名中每一个候选别名组成的全名-别名对的特征，所述全名-别名对的特征至少包括所述每一个候选别名中的字符在所述第一全名中的位置特征；

确定子模块，用于根据所述全名-别名对的特征、所述目标领域的别名预测模型，确定所述第一全名对应的第一别名集合。

结合第二方面，或者第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，所述装置还包括：

排序模块，用于对所述第一别名集合中的所有别名进行优先级排序。

结合第二方面的第二种可能的实现方式，在第二方面的第三种可能的实现方式中，所述排序模块，具体包括：

检索子模块，用于在搜索引擎中检索第一全名和第一别名中的至少一个，获取前N个搜索结果，所述第一别名为所述第一别名集合中的任意一个别名；

统计子模块，用于统计所述第一全名和所述第一别名在前N个搜索结果中共同出现的次数；

设置子模块，用于根据所述第一全名和所述第一别名在前N个搜索结果中共同出现的次数，为所述第一别名设置优先级。

结合第二方面，在第二方面的第四种可能的实现方式中，所述获取模块具体用于，根据所述目标领域的训练数据，提取所述目标领域的训练数据的特征，所述目标领域的训练数据的特征为所述训练数据中全名-别名对的特征，所述全名-别名对的特征至少包括所述别名中的字符在所述全名中的位置特征。

结合第二方面，在第二方面的第五种可能的实现方式中，所述计算模块，具体包括：

第二构造子模块，用于构造所述目标领域的别名预测模型λω+(1-λ)υ，其中，ω为源领域的别名预测模型，λ为权重因子，υ为目标领域的参数；

计算子模块，用于根据所述目标领域的训练数据，计算所述目标领域的别名预测模型λω+(1-λ)υ的参数υ。

本发明实施例提供一种别名获取方法，包括：获取源领域的别名预测模型；获取目标领域的训练数据；根据源领域的别名预测模型和目标领域的训练数据，计算目标领域的别名预测模型；根据目标领域的别名预测模型，确定目标领域内的第一全名对应的第一别名集合，第一别名集合中包括至少一个别名，第一全名为目标领域内的任一全名。

基于上述实施例的描述，本发明提供的别名获取方法，可以根据学习到的别名预测模型对任何全名进行别名的预测，而不会像现有技术那样依赖于互联网数据，通常只能找到出现频率较高的别名。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种别名获取方法的流程示意图一；

图2为本发明实施例提供的一种别名获取方法的流程示意图二；

图3为本发明实施例提供的一种别名获取方法的流程示意图三；

图4为本发明实施例提供的一种别名获取装置的结构示意图一；

图5为本发明实施例提供的一种别名获取装置的结构示意图二；

图6为本发明实施例提供的一种别名获取装置的结构示意图三。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

迁移学习是机器学习的一个概念，传统的机器学习方法只考察同一分布下的数据，而迁移学习将数据划分为源领域和目标领域，借助源领域内已标注的数据样本和领域间的联系，学习目标领域的数据分布规律。迁移学习可以在不同领域(或者同领域的不同任务)间进行信息共享或信息迁移，可以有效利用已有信息，探索未知信息。

实施例一

本发明实施例提供一种别名获取方法，如图1所示，为该方法的流程示意图，包括：

S101、获取源领域的别名预测模型和目标领域的训练数据。

利用迁移学习思想，在获取目标领域的全名对应的别名之前，首先需要获取源领域的别名预测模型。其中，源领域的别名预测模型是根据源领域的训练数据结合机器学习训练得到的。

由于目标领域与源领域存在一定的差异性，因此，源领域的别名预测模型不能直接应用于目标领域中对别名的预测，而是要根据目标领域中一定数量的训练数据对源领域的别名预测模型进行改进，得到适用于目标领域的别名预测模型。

S102、根据源领域的别名预测模型和目标领域的训练数据，计算目标领域的别名预测模型。

示例性的，源领域的别名预测模型为分类超平面ω，则可以构造目标领域的别名预测模型为λω+(1-λ)υ，其中，λ为权重因子，υ为目标领域的参数，由此，可以根据目标领域的训练数据对目标领域的别名预测模型λω+(1-λ)υ进行训练，确定目标领域的参数υ，从而得到目标领域的别名预测模型。

S103、根据目标领域的别名预测模型，确定目标领域内的第一全名对应的第一别名集合。

第一别名集合中包括至少一个别名，第一全名为目标领域内的任一全名。

由上述步骤得到目标领域的别名预测模型之后，就可以对目标领域内的任意一个全名，获取该全名对应的所有可能的别名。

具体的，根据目标领域内的任意一个全名，首先根据排列组合构造该全名所有可能的别名集合，比如，全名为“ABCD”，则其所有可能的别名包括：“A”，“B”，“C”，“D”，“AB”，“AC”，“AD”，“BC”，“BD”，“CD”，“ABC”，“ABD”，“ACD”，“BCD”十四种；对于“ABCD”对应的所有六种候选别名，然后根据目标领域的别名预测模型对上述六种别名进行概率计算，确定全名“ABCD”所对应的别名，以及每个别名的优先级。

实施例二

本发明实施例提供一种别名获取方法，如图2所示，为该方法的流程示意图，包括：

S201、获取源领域的别名预测模型和目标领域的训练数据。

获取目标领域的训练数据具体包括：根据目标领域的训练数据，提取目标领域的训练数据的特征。

目标领域的训练数据的特征为训练数据中全名-别名对的特征，所述全名别名对的特征至少包括别名的字符在全名中的位置特征。可选的，目标领域的训练数据的特征还可以包括：第二别名中的字符在第二全名词组中的词性和类别特征，第二别名和第二全名所属的领域等中的至少一个，训练数据中还包括每一条训练数据的标注(即每一条训练数据是正例还是反例)。其中，第二全名为训练数据中的任一全名，第二别名为训练数据中的第二全名对应的任一别名。

示例性的，目标领域中有一条训练数据为“北京大学”-“北大”-正例，则根据该条训练数据，提取该条训练数据的特征。

具体的，位置特征：用向量编码的方式表示别名中字符的位置，基于全名的切词结果，依次为切词后每个词组的长度，别名中的字符在每个词组中的位置。例如：“北京大学”，切词后为“北京/大学”，将“北京大学”切割为两个词组“北京”和“大学”，预设的对全名进行切割后的词组数为4个，则“北京大学”全名的编码为(2，2，0，0)，该编码表示，全名“北京大学”切词后的第一个词组包括两个字符，第二个词组也包括两个字符，第三个词组和第四个词组包括零个字符；然后对别名“北大”进行向量编码，编码结果为(1，1，0，0)，该别名的编码的含义为：‘北’字为第一个词组“北京”的第一个字符，编码为1，‘大’字为第二个词组“大学”的第一个字符，编码为1，因此，别名“北大”的编码结果为

(1，1，0，0)；将全名“北京大学”和其对应的别名“北大”的编码结果合并得到该条训练数据位置特征(2，2，0，0，1，1，0，0)，本发明中也可以采用其他编码形式进行编码。

本发明实施例还提供了另一种对位置特征进行向量编码的方法，示例性的，全名为“清华大学”，切词之后得到“清华/大学”，则“清华大学”的编码为(2，2，0，0)，别名“清华”的编码过程为：‘清华’在第一个词组中编码为二进制11，转换为十进制为3，因此，别名“清华”的编码结果为(3，0，0，0)，将“清华大学”和其对应的别名“清华”的编码结果合并后得到该条训练数据的位置特征(2，2，0，0，3，0，0，0)。

示例性的，另一个特征用于表示别名中的字符所属的全名的词组的词性和类别特征，示例性的，全名“发展和改革委员会”切词后为“发展/和/改革/委员会”对应的别名为“发改委”，其中，‘发’对应的词组“发展”为动词，‘改’对应的词组“改革”也为动词，‘委’对应的词组“委员会”为名词。

训练数据的标注用于指示该条训练数据为正例或者反例，示例性的，训练数据“北京大学”-“北大”为正例，训练数据“北京大学”-“北京”为反例，训练数据“北京大学”-“京大”等为反例。

需要说明的是，提取的训练数据的特征越多，则最终得到的目标领域的别名预测模型越准确，为此，还可以为训练数据增加挖掘特征和统计特征。

具体的，根据目标领域的训练数据中的全名，采用信息检索技术挖掘全名对应的别名集合；挖掘特征用于表示各个别名在检索结果中出现的次数或者频率，统计特征用于表示全名与别名成对出现的次数或者频率等。

S202、根据源领域的别名预测模型和目标领域的训练数据，计算目标领域的别名预测模型。

在本实施例中，使用归纳迁移学习算法，将从源领域中学习到的参数迁移到目标领域，具体的，采用支持向量机(support vector machine，SVM)模型来进行迁移学习。则需求解下述SVM优化问题：

\{\begin{matrix} \min_{&upsi;, b, ϵ} \frac{1}{2} {| &upsi; |}^{2} + C Σ_{i = 1}^{l} ϵ_{i} \\ s . t . y^{(i)} ({(λω + (1 - λ) &upsi;)}^{T} x^{(i)} + b) &GreaterEqual; 1 - ϵ_{i}, ϵ_{i} &GreaterEqual; 0, i = 1, . . ., l \end{matrix}

最终得到目标领域的别名预测模型λω+(1-λ)υ。

S203、根据目标领域的别名预测模型，确定目标领域内的第一全名对应的第一别名集合。

如图3所示，S203具体包括：S203a-S203c。

S203a、根据目标领域内的第一全名，构造第一全名的第二别名集合，第二别名集合中包括第一全名对应的所有候选别名。

具体的，根据目标领域内的任意一个全名，首先根据排列组合构造该全名所有可能的别名集合，比如，全名为“北京大学”，则其所有可能的别名包括：“北”，“京”，“大”，“学”，“北京”，“北大”，“北学”，“京大”，“京学”，“大学”，“北京大”，“北京学”，“北大学”“京大学”14种；然后根据目标领域的别名预测模型对上述六种别名进行预测，确定全名“北京大学”所对应的可能的别名。

S203b、提取第一全名和每一个候选别名组成的全名-别名对的特征。

示例性的，可以根据本实施例S201中所述的方法过程，提取第一全名和每一个候选别名组成的全名-别名对的特征。

S203c、根据全名-别名对的特征、目标领域的别名预测模型，确定第一全名对应的第一别名集合。

将S203b得到的全名-别名对的特征带入目标领域的别名预测模型，确定第一全名对应的第一别名集合。

S204、对第一别名集合中的所有别名进行优先级排序。

如图3所示，S204具体包括：S204a-S204c。

S204a、在搜索引擎中检索第一全名和第一别名中的至少一个，获取前N个搜索结果，第一别名为第一别名集合中的任意一个别名。

具体的，在搜索引擎中检索第一全名，获取前N个搜索结果摘要，如果在这些摘要中没有出现第一别名，则降低这个别名的优先级。

又具体的，在搜索引擎中检索第一全名和第一别名，获取前N个搜索结果摘要，如果在这些摘要中没有出现第一别名，则降低这个别名的优先级。

又具体的，在搜索引擎中检索第一别名，获取前N个搜索结果摘要，如果在这些摘要中没有出现第一全名，则降低这个别名的优先级。

S204b、统计所述第一全名和所述第一别名在前N个搜索结果中共同出现的次数。

S204c、根据第一全名和第一别名在前N个搜索结果中共同出现的次数，为第一别名设置优先级。

示例性的，若在搜索结果中，第一全名和第一别名共同出现的次数越多，则为第一别名设置较高的优先级。

需要补充的是，根据上述过程得到全名-别名对的集合后，可以将全名-别名的集合应用于不同的场景，根据字符串进行查找操作，得到全名对应的别名，或者别名对应的全名。例如在导航软件中，用户输入“北航”，在全名-别名的集合中找到其全称为“北京航空航天大学”，然后定位到“北京航空航天大学”这个地标。

实施例三

本发明实施例提供一种别名获取装置，如图4所示，为该别名获取装置的结构示意图，包括：

获取模块10，用于获取源领域的别名预测模型和目标领域的训练数据。

计算模块20，用于根据源领域的别名预测模型和目标领域的训练数据，计算目标领域的别名预测模型。

确定模块30，用于根据目标领域的别名预测模型，确定目标领域内的第一全名对应的第一别名集合，第一别名集合中包括至少一个别名，第一全名为目标领域内的任一全名。

具体的，根据目标领域内的任意一个全名，首先根据排列组合构造该全名所有可能的别名集合，比如，全名为“北京大学”，则其所有可能的别名包括：“北京”，“北大”，“北学”，“京大”，“京学”，“大学”六种；然后根据目标领域的别名预测模型对上述六种别名进行预测，确定全名“北京大学”所对应的可能的别名，以及每个别名的优先级。

具体的，如图5所示，确定模块30包括：

第一构造子模块300，用于根据目标领域内的第一全名，构造第一全名的第二别名集合，第二别名集合中包括第一全名对应的所有候选别名，第二别名集合包含第一别名集合。

提取子模块301，用于提取第一全名和每一个候选别名组成的全名-别名对的特征，全名-别名对的特征至少包括每一个候选别名中的字符在第一全名中的位置特征。

确定子模块302，用于根据全名-别名对的特征、目标领域的别名预测模型，确定第一全名对应的第一别名集合。

如图6所示，该别名获取装置还包括：

排序模块40，用于对第一别名集合中的所有别名进行优先级排序。

排序模块40，具体包括：

检索子模块400，用于在搜索引擎中检索第一全名和第一别名中的至少一个，获取前N个搜索结果，第一别名为第一别名集合中的任意一个别名。

统计子模块401，用于统计所述第一全名和所述第一别名在前N个搜索结果中共同出现的次数。

设置子模块402，用于根据第一全名和第一别名在前N个搜索结果中共同出现的次数，为第一别名设置优先级。

获取模块10，具体用于根据目标领域的训练数据，提取目标领域的训练数据的特征，训练数据的特征为训练数据中全名-别名对的特征，全名-别名对的特征至少包括别名中的字符在全名中的位置特征。

计算模块20，具体包括：

第二构造子模块200，用于构造目标领域的别名预测模型λω+(1-λ)υ，其中，ω为源领域的别名预测模型，λ为权重因子，υ为目标领域的参数。

计算子模块201，用于根据目标领域的训练数据，计算目标领域的别名预测模型λω+(1-λ)υ的参数υ。

本发明实施例提供一种别名获取装置，包括：获取模块，用于获取源领域的别名预测模型和目标领域的训练数据；计算模块，用于根据源领域的别名预测模型和目标领域的训练数据，计算目标领域的别名预测模型；确定模块，用于根据目标领域的别名预测模型，确定目标领域内的第一全名对应的第一别名集合，第一别名集合中包括至少一个别名，第一全名为目标领域内的任一全名。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种别名获取方法，其特征在于，包括：

获取源领域的别名预测模型和目标领域的训练数据；

2.根据权利要求1所述的别名获取方法，其特征在于，所述根据所述目标领域的别名预测模型，确定所述目标领域内的第一全名对应的第一别名集合，具体包括：

提取所述第一全名和所述所有候选别名中每一个候选别名组成的全名-别名对的特征；

3.根据权利要求1或2所述的别名获取方法，其特征在于，所述根据所述目标领域的别名预测模型，确定所述目标领域内的第一全名对应的第一别名集合之后，所述方法还包括：对所述第一别名集合中的所有别名进行优先级排序。

4.根据权利要求3所述的别名获取方法，其特征在于，所述对所述第一别名集合中的所有别名进行优先级排序，具体包括：

统计所述第一全名和所述第一别名在前N个搜索结果中共同出现的次数；

5.根据权利要求1所述的别名获取方法，其特征在于，所述获取目标领域的训练数据，具体包括：

6.根据权利要求1所述的别名获取方法，其特征在于，所述根据所述源领域的别名预测模型和所述目标领域的训练数据，计算所述目标领域的别名预测模型，具体包括：

7.一种别名获取装置，其特征在于，包括：

获取模块，用于获取源领域的别名预测模型和目标领域的训练数据；

8.根据权利要求7所述的别名获取装置，其特征在于，所述确定模块，具体包括：

提取子模块，用于提取所述第一全名和所述所有候选别名中每一个候选别名组成的全名-别名对的特征；

9.根据权利要求7或8所述的别名获取装置，其特征在于，所述装置还包括：

10.根据权利要求9所述的别名获取装置，其特征在于，所述排序模块，具体包括：

11.根据权利要求7所述别名获取装置，其特征在于，

所述获取模块具体用于，根据所述目标领域的训练数据，提取所述目标领域的训练数据的特征，所述目标领域的训练数据的特征为所述训练数据中全名-别名对的特征，所述全名-别名对的特征至少包括所述别名中的字符在所述全名中的位置特征。

12.根据权利要求7所述的别名获取装置，其特征在于，所述计算模块，具体包括：