CN113988056A

CN113988056A - 一种同义词获取方法及装置

Info

Publication number: CN113988056A
Application number: CN202111313822.1A
Authority: CN
Inventors: 朱自强; 黄龙涛
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2021-11-08
Filing date: 2021-11-08
Publication date: 2022-01-28

Abstract

本申请公开了一种同义词获取方法及装置，本申请从用户的搜索行为中获取搜索序列，并以此引入预训练模型来进行搜索内容的向量化表示，然后利用搜索内容的向量化表示，实现对待处理的关键词的同义词的挖掘。本申请实施例直接利用用户的搜索内容作为词，从词有效性的角度衡量要远高于传统的新词挖掘算法，大大提升了挖掘的准确性，而且本申请实施例挖掘出了词汇的知识性变异，很好地适用于更多的应用场景。

Description

一种同义词获取方法及装置

技术领域

本申请涉及但不限于计算机技术，尤指一种同义词获取方法及装置。

背景技术

同义词的挖掘是基础的自然语言处理(NLP，Natural Language Processing)工具，具有非常广泛的应用场景。相关技术中挖掘同义词的方法，只能挖掘出类似于NLP这种级别的同义词，挖掘不出词汇的知识性变异，从而对挖掘的准确性大打折扣，大大降低了其实用性。

发明内容

本申请提供一种同义词获取方法及装置，能够大大提升挖掘的准确性，很好地适用于更多的应用场景。

本发明实施例提供了一种同义词获取方法，应用于基于关键词做决策的场景，包括：

获取所述关键词的词向量表示；

计算所述关键词对应的词向量表示与待扩充的词包中的词语对应的词向量表示之间的距离；

将距离小于预设距离阈值的词向量表示对应的词语作为所述关键词的同义词并扩充到所述词包中，以使用于做决策的关键词包括所述关键词和获得的同义词。

在一种示例性实例中，所述获取所述关键词的词向量表示，包括：

利用根据搜索历史信息训练得到的预训练模型，将待处理的关键词转换为词向量表示。

在一种示例性实例中，还包括根据所述搜索历史信息训练得到所述预训练模型，包括：

基于用户的所述搜索历史信息，构建搜索序列；

对构建的搜索序列进行清洗得到包括关键词的搜索序列；

将清洗后的搜索序列中的每个搜索内容作为单词进行预训练，得到基于搜索内容的所述预训练模型。

在一种示例性实例中，所述基于用户的搜索历史信息，构建搜索序列包括：

将所述搜索历史信息中，搜索时间间隔小于预设时长的搜索历史信息作为同一个搜索序列，以构建出多个所述搜索序列。

在一种示例性实例中，所述对构建的搜索序列进行清洗得到包括关键词的搜索序列，包括：

对同一个所述搜索序列中出现的相同的搜索内容进行去重处理；

所述搜索序列中至少包括两个搜索内容；

保留包括有所述需要扩展的词包中的关键词的搜索序列。

在一种示例性实例中，所述将清洗后的搜索序列中的每个搜索内容作为单词进行预训练，得到基于搜索内容的预训练模型，包括：

将搜索序列中的每个搜索内容看作单词，进行将单词转换成词向量表示的预训练，以针对搜索内容，训练出所述基于搜索内容的预训练模型；所述预训练模型的输入为单词，输出为单词对应的词向量表示。

在一种示例性实例中，得到所述预训练模型之后，还包括：

对同一所述搜索内容的多个向量表示取平均值，将取平均值的结果作为该搜索内容的所述词向量表示。

在一种示例性实例中，还包括：

对所述同义词进行人工审核，将通过审核的同义词作为所述待处理的关键词的同义词。

在一种示例性实例中，还包括：

将所述通过审核的候选同义词作为关键词添加到所述需要扩充的关键词词包中，返回执行所述将待处理的关键词转换为词向量表示的步骤，直至不能产出新的有价值的关键词。

本申请实施例还提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述任一项所述同义词获取方法。

本申请实施例再提供一种实现同义词获取的设备，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：用于执行上述任一项所述的同义词获取方法的步骤。

本申请实施例又提供一种同义词获取装置，包括：转换模块、计算模块、获取模块；其中，

转换模块，用于利用根据搜索历史信息训练得到的预训练模型，将待处理的关键词转换为词向量表示；

计算模块，用于计算待处理的关键词对应的词向量表示与待扩充的词包中的词语对应的词向量表示之间的距离；

获取模块，用于将距离小于预设距离阈值的词向量表示对应的词语作为待处理的关键词的同义词。

在一种示例性实例中，还包括：构建模块、处理模块、训练模块；其中，

构建模块，用于基于用户的搜索历史信息，构建搜索序列；

处理模块，用于对构建的搜索序列进行清洗得到包括关键词的搜索序列；

训练模块，用于将清洗后的搜索序列中的每个搜索内容作为单词进行预训练，得到基于搜索内容的所述预训练模型。

本申请实施例还提供一种同义词获取方法，包括：

响应于用户通过预先设置的用户界面输入的关键词；

计算所述关键词对应的词向量表示与词包中的词语对应的词向量表示之间的距离；

将距离小于预设距离阈值的词向量表示对应的词语作为所述关键词的同义词，将所述同义词扩充到所述词包中并在所述用户界面上展示给用户，以使用户用于基于所述关键词和其同义词做决策。

本申请实施例从用户的搜索行为中获取搜索序列，并以此引入预训练模型来进行搜索内容的向量化表示，然后利用搜索内容的向量化表示，实现对待处理的关键词的同义词的挖掘。本申请实施例直接利用用户的搜索内容作为词，从词有效性的角度衡量要远高于传统的新词挖掘算法，大大提升了挖掘的准确性，而且本申请实施例挖掘出了词汇的知识性变异，很好地适用于更多的应用场景。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本申请实施例中同义词获取方法的流程示意图；

图2为本申请实施例中同义词获取装置的组成结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下文中将结合附图对本申请的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在本申请一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1为本申请实施例中同义词获取方法的流程示意图，如图1所示，至少包括以下步骤：

步骤100：利用根据搜索历史信息训练得到的预训练模型，将待处理的关键词转换为词向量表示。

在一种示例性实例中，本步骤之前还可以包括：根据搜索历史信息训练得到预训练模型。

在一种示例性实例中，根据搜索历史信息训练得到预训练模型，包括：

基于用户的搜索历史信息，构建搜索序列；

对构建的搜索序列进行清洗得到包括关键词的搜索序列；

将清洗后的搜索序列中的每个搜索内容作为单词进行预训练，得到基于搜索内容的预训练模型。

在一种示例性实例中，基于用户的搜索历史信息，构建搜索序列，可以包括：将用户的搜索历史信息中，搜索时间间隔小于预设时长的搜索历史信息作为同一个搜索序列，以构建出多个搜索序列。

通常情况下，可以认为一个用户在短时间内的搜索倾向是相同的，如果用户在预设时长内如120秒未搜索新的词语，那么，可以认为是一个新的搜索的开始。也就是说，如果搜索历史信息是在一个搜索时间间隔小于预设时长的连续的时长内发生的，那么，可以认为是针对同一个关键词进行的搜索，将这些搜索内容构建为同一个搜索序列；而如果搜索历史信息之间相隔的时长大于预设时长，那么，该预设时长前后的搜索历史信息会分别构建为两个搜索序列。

举个例子来看，如表1所示，是一段时间内用户的搜索历史信息。

ID	搜索时间	搜索内容
			1	10：11：12	MP3
2	10：11：23	随身听
			3	10：11：40	MP3
4	10：14：30	虎皮蛋糕
			5	10：20：01	染发
6	10：21：10	一洗黑

表1

如表1所示，假设预设时长为120秒，那么，不难看出，基于用户的搜索历史信息，可以构建出如下搜索序列：

搜索序列1：(MP3，随身听，MP3)；

搜索序列2：(虎皮蛋糕)；

搜索序列3：(染发，一洗黑)。

在一种示例性实例中，对构建的搜索序列进行清洗得到包括关键词的搜索序列，可以包括：

对同一个搜索序列中出现的相同的搜索内容进行去重处理，只保留一个；

只保留长度超过2的搜索序列，即搜索序列中至少包括两个搜索内容；

只保留包括有需要扩展的词包中的关键词的搜索序列。

经过清洗后的搜索系列更加精简，而且包括了所需的信息，从而避免了不必要的运算，提高了计算效率。

仍以表1所示为例，经过本申请实施例中的清洗过程，搜索序列1中删除了一个MP3的搜索内容，清洗后的搜索序列1为：(MP3，随身听)；搜索序列2中由于只包括一个搜索内容，因此删除搜索序列2；搜索序列3保持不变。这样，经过清洗后可以得到两个搜索序列，即搜索序列1：(MP3，随身听)和搜索序列2：(染发，一洗黑)。

在一种示例性实例中，将清洗后的搜索序列中的每个搜索内容作为单词进行预训练，得到基于搜索内容的预训练模型，可以包括：

将搜索序列中的每个搜索内容看作单词，进行将单词转换成词向量表示的预训练，比如采用基于变换器的双向编码器表示技术(BERT，Bidirectional EncoderRepresentations from Transformers)、XLNet、Word2Vec等词向量方式进行训练，这样，针对搜索内容，训练出基于搜索内容的预训练模型。这个预训练模型的输入为单词，输出为单词对应的词向量表示。

其中，BERT是用于自然语言处理(NLP)的预训练技术；Word2vec是word to vector的缩写，是一个将单词转换成向量形式的工具；XLNet是NLP领域中一个新的预训练方法，XLNet是一个类似BERT的模型。

针对每一个搜索内容，如果该搜索内容出现在多个不同的搜索序列中，那么，训练后会得到多个词向量表示。为了避免了不必要的运算，提高了计算效率，在一种示例性实例中，在得到基于搜索内容的预训练模型之后，还可以包括：

对针对同一搜索内容的多个向量表示取平均值，将取平均值的结果作为该搜索内容的最终的词向量表示。

在一种示例性实例中，只要将待处理的关键词输入预训练模型，那么便可得到该关键词对应的词向量表示。

步骤101：计算待处理的关键词对应的词向量表示与待扩充的词包中的词语对应的词向量表示之间的距离。

这里，词包指的是需要扩展的关键词词包，词包中包括有任意关键词，比如：MP3、染发等。

在一种示例性实例中，步骤101通过计算待处理的关键词对应的词向量表示与词包中的词语对应的词向量表示之间的距离，来寻找与该待处理的关键词同义或相似度高的同义词或相似词。比如：可以计算余弦距离、欧式距离等。其中余弦距离也称为余弦相似度，是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。欧氏距离就是欧几里得度量(euclidean metric)，是一个通常采用的距离定义，指在m维空间中两个点之间的真实距离，或者向量的自然长度(即该点到原点的距离)。

步骤102：将距离小于预设距离阈值的词向量表示对应的词语作为待处理的关键词的同义词。

在一种示例性实例中，本步骤选择出的同义词可以是候选同义词，这是，还可以包括：

对候选同义词进行审核，比如人工审核，这样通过人工进一步判断，将不能被认为是真正的同义词的候选同义词删除，而将通过审核的候选同义词最终的待处理的关键词的同义词。

在一种示例性实例中，还可以包括：将通过审核的候选同义词作为关键词添加到需要扩充的关键词词包中，重复本申请实施例提供的同义词获取方法，直至不能产出新的有价值的关键词。

通过本申请提供的同义词获取方法，从用户的搜索行为中获取搜索序列，并以此引入预训练模型来进行搜索内容的向量化表示，然后利用搜索内容的向量化表示，实现对待处理的关键词的同义词的挖掘。本申请实施例直接利用用户的搜索内容作为词，从词有效性的角度衡量要远高于传统的新词挖掘算法，大大提升了挖掘的准确性，而且，本申请实施例提供的同义词获取方法，更好地适用于更多的应用场景，这是因为挖掘出了词汇的知识性变异，也就是多个词表达同一个意思，比如：假设染发是关键词，那么其同义词也可以是如一染黑等，也代表染发。

本申请还提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行图1任一项所述的同义词获取方法。

本申请再提供一种实现同义词获取的设备，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：用于执行图1任一项所述的同义词获取方法的步骤。

本申请实施例提供的同义词获取方法，可以使用在很多基于关键词做决策的场景，用来做关键词扩充等。可以包括：获取所述关键词的词向量表示；计算所述关键词对应的词向量表示与待扩充的词包中的词语对应的词向量表示之间的距离；将距离小于预设距离阈值的词向量表示对应的词语作为所述关键词的同义词并扩充到所述词包中，以使用于做决策的关键词包括所述关键词和获得的同义词。

在一种实施例中，可以通过对关键词的扩充，避免使用扩充后的关键词，以广告法违规检测为例，广告法相关条款规定，广告不得有下列情形：使用“国家级”、“最高级”、“最佳”等用语。这里，“等”表示一个兜底条款，其他广告法没有罗列出的不得使用的广告用语还有很多。如果有一种方法能帮助找出广告法中罗列出来的“国家级”、“最高级”、“最佳”的同义词，那么，能够很好地避免在发布的广告中不适用不得使用的广告用语。如果先通过本申请实施例提供的同义词获取方法，找到关键词--国家级的同义词，比如找到同义词包括：标杆、宇宙级、世界级、5A级这些新词，那么，就能做到不在广告中使用不得使用的广告用语，减少违规的可能。

在一种实施例中，可以通过对关键词的扩充，使用扩充后的关键词，以响应电子烟“线上禁售令”为例，通过本申请实施例提供的同义词获取方法，可以找出与关键词-电子烟表达同一事物或商品的同义词，这样，采用电子烟和其同义词对商品进行检索，可以更加充分地找到线上属于电子烟的商品并下架这些商品，从而更好地实现了电子烟“线上禁售令”的实施。大致实现包括：利用预先训练好的基于搜索内容的预训练模型，将待处理的关键词即电子烟转换为词向量表示；计算电子烟的词向量表示与词包中的词语对应的词向量表示之间的距离，找出距离小于预设距离阈值的词向量表示对应的词语，将这些词语作为电子烟的同义词。比如：距离小于预设距离阈值的词向量表示对应的词语包括：虚拟香烟、电子雾化器、电子尼古丁传送系统，那么，将电子香烟、虚拟香烟、电子雾化器、电子尼古丁传送系统用于商品检索，便可以下加检索出的线上商品，通过对关键词的同义词的补充，实现了对电子香烟线上商品的更加全方位的禁售。

另一方面，通过本申请提供的同义词获取方法，对关键词词包实现了扩充，也就是说，对法律明文规定的和律师总结的不能使用的词语进行了扩充，这样，在用户发布广告时可以很好地进行风险提醒，进而减少违规的可能。

在用户需要使用关键词做决策的场景下，为了确保决策的全方位性，可以通过本申请实施例提供的用户界面，先寻找出与该关键词相似的同义词(或称为相似词)，然后在根据该关键词和其同义词来做决策，为此，本申请实施例还提供一种同义词获取方法，包括：

响应于用户通过预先设置的用户界面输入的关键词，比如用户可以通过预先设置的用户界面中的输入框输入关键词；

用户界面所在系统会计算该关键词对应的词向量表示与系统中的词包中的词语对应的词向量表示之间的距离；

将距离小于预设距离阈值的词向量表示对应的词语作为该关键词的同义词，然后，将得到的同义词扩充到系统中的词包中，并将得到的同义词(也可以包括关键词本身)在用户界面的显示区域展示给用户，这样，用户便可以基于该关键词和其同义词做决策。

图2为本申请同义词获取装置，如图2所示，至少包括：转换模块、计算模块、获取模块；其中，

在一种示例性实例中，获取模块还用于：对候选同义词进行审核，比如人工审核，这样通过人工进一步判断，将不能被认为是真正的同义词的候选同义词删除，而将通过审核的候选同义词最终的待处理的关键词的同义词。

在一种示例性实例中，本申请同义词获取装置还包括：构建模块、处理模块、训练模块；其中，

构建模块，用于基于用户的搜索历史信息，构建搜索序列；

训练模块，用于将清洗后的搜索序列中的每个搜索内容作为单词进行预训练，得到基于搜索内容的预训练模型。

在一种示例性实例中，构建模块具体可以用于：

基于用户的搜索历史信息，构建搜索序列，可以包括：将用户的搜索历史信息中，搜索时间间隔小于预设时长的搜索历史信息作为同一个搜索序列，以构建出多个搜索序列。

在一种示例性实例中，处理模块具体可以用于：

只保留包括有需要扩展的词包中的关键词的搜索序列。

在一种示例性实例中，训练模块具体可以用于：

将搜索序列中的每个搜索内容看作单词，进行将单词转换成词向量表示的预训练，比如采用BERT、XLNet、Word2Vec等词向量方式进行训练，这样，针对搜索内容，训练出基于搜索内容的预训练模型。这个预训练模型的输入为单词，输出为单词对应的词向量表示。

针对每一个搜索内容，如果该搜索内容出现在多个不同的搜索序列中，那么，训练后会得到多个词向量表示。为了避免了不必要的运算，提高了计算效率，在一种示例性实例中，训练模块还可以用于：

在一种示例性实例中，获取模块还用于：将通过审核的候选同义词作为关键词添加到需要扩充的关键词词包中，重复本申请实施例提供的同义词获取方法，直至不能产出新的有价值的关键词。

通过本申请提供的同义词获取装置，从用户的搜索行为中获取搜索序列，并以此引入预训练模型来进行搜索内容的向量化表示，然后利用搜索内容的向量化表示，实现对待处理的关键词的同义词的挖掘。本申请实施例直接利用用户的搜索内容作为词，从词有效性的角度衡量要远高于传统的新词挖掘算法，大大提升了挖掘的准确性，而且，本申请实施例提供的同义词获取装置，更好地适用于更多的应用场景，这是因为挖掘出了词汇的知识性变异，也就是多个词表达同一个意思，比如：假设染发是关键词，那么其同义词也可以是如一染黑等，也代表染发。

虽然本申请所揭露的实施方式如上，但所述的内容仅为便于理解本申请而采用的实施方式，并非用以限定本申请。任何本申请所属领域内的技术人员，在不脱离本申请所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本申请的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种同义词获取方法，应用于基于关键词做决策的场景，包括：

获取所述关键词的词向量表示；

2.根据权利要求1所述的同义词获取方法，其中，所述获取所述关键词的词向量表示，包括：

3.根据权利要求2所述的同义词获取方法，还包括根据所述搜索历史信息训练得到所述预训练模型，包括：

基于用户的所述搜索历史信息，构建搜索序列；

对构建的搜索序列进行清洗得到包括关键词的搜索序列；

4.根据权利要求3所述的同义词获取方法，其中，所述基于用户的搜索历史信息，构建搜索序列包括：

5.根据权利要求3所述的同义词获取方法，其中，所述对构建的搜索序列进行清洗得到包括关键词的搜索序列，包括：

所述搜索序列中至少包括两个搜索内容；

保留包括有所述需要扩展的词包中的关键词的搜索序列。

6.根据权利要求3所述的同义词获取方法，其中，所述将清洗后的搜索序列中的每个搜索内容作为单词进行预训练，得到基于搜索内容的预训练模型，包括：

7.根据权利要求6所述的同义词获取方法，得到所述预训练模型之后，还包括：

8.根据权利要求1所述的同义词获取方法，还包括：

9.根据权利要求8所述的同义词获取方法，还包括：

10.一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1～权利要求9任一项所述同义词获取方法。

11.一种实现同义词获取的设备，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：用于执行权利要求1～权利要求9任一项所述的同义词获取方法的步骤。

12.一种同义词获取装置，包括：转换模块、计算模块、获取模块；其中，

13.根据权利要求12所述的同义词获取装置，还包括：构建模块、处理模块、训练模块；其中，

构建模块，用于基于用户的搜索历史信息，构建搜索序列；

14.一种同义词获取方法，包括：

响应于用户通过预先设置的用户界面输入的关键词；