CN115017899A

CN115017899A - 一种缩略语生成方法、装置、设备及存储介质

Info

Publication number: CN115017899A
Application number: CN202210408824.7A
Authority: CN
Inventors: 王超; 刘井平; 程浩; 肖仰华; 许慧敏; 王宗宇; 谢睿; 武威
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2022-04-19
Filing date: 2022-04-19
Publication date: 2022-09-06
Anticipated expiration: 2042-04-19
Also published as: CN115017899B

Abstract

本说明书公开了一种缩略语生成方法、装置、设备及存储介质，在对待识别全称进行分词得到了待识别全称中包含的每个词以及每个词对应的特征向量，进而根据每个词对应的特征向量确定每个词中包含的所有字的特征向量，将待识别全称中各字对应的特征向量输入到缩略语生成模型中，得到待识别全称对应的缩略语。可见，通过结合词对应的特征向量确定词中包含的每个字对应的特征向量的方式，将字在其所在词中的语义等特征融合到字对应的特征向量中，体现了词的语义对字本身特征的影响，提高了通过缩略语生成模型得到的待识别全称对应的缩略语的准确性。

Description

一种缩略语生成方法、装置、设备及存储介质

技术领域

本说明书涉及计算机技术领域，尤其涉及一种缩略语生成方法、装置、设备及存储介质。

背景技术

缩略语是由较长的词语缩短省略而成的词语，在语言学中，缩略语是全称简化后的表达形式，又称“缩写”和“简称”。由于缩略语在表达上简洁精炼，在人们的日常生活中被大量使用，其中，会出现用户使用缩略语进行信息检索的情况，例如，用户的意图是到达万达影院(湖里万达广场店)，但在进行地址检索时，会以用户常用的简洁表达进行检索，如检索“湖里万达”，这就需要预先建立全称与缩略语的对应关系，以便用户在检索缩略语时，为用户检索到缩略语对应的全称的信息。

现有技术中，通常利用神经网络模型对词语的全称进行序列标注，得到词语的全称中哪些字可以被省略，哪些字需要被保留，从而确定词语的全称对应的缩略语，进而建立全称与缩略语的对应关系。

然而，在对词语的全称进行序列标注的过程中，现有的序列标注模型往往仅关注字本身的含义，忽略了字在词中的语义以及词本身语义的多样化，导致得到的缩略语产生歧义，不能完全表达出对应的全称的含义，甚至表达错误。

发明内容

本说明书提供一种缩略语生成方法及装置，以部分的解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供了一种缩略语生成方法，包括：

获取待识别全称；

对所述待识别全称进行分词，得到所述待识别全称中包含的各词语；

针对每个词语，确定该词语对应的特征向量；

根据该词语对应的特征向量，确定该词语中包含的各字对应的特征向量；

根据所述待识别全称中各字对应的特征向量，确定所述待识别全称的特征向量；

将所述待识别全称的特征向量输入到缩略语生成模型，得到所述缩略语生成模型输出的所述待识别全称对应的缩略语。

可选地，针对每个词语，确定该词语对应的特征向量，具体包括：

确定该词语对应的各语义类别；并确定该词语对应的各语义类别向量；

根据该词语对应的各语义类别向量以及该词语的相邻词语对应的各语义类别向量，确定该词语对应的各语义类别的置信度；所述语义类别的置信度用于表征该词语对应的各语义类别符合该词语在所述待识别全称中各语义的概率；

以该词语对应的各语义类别的置信度为权重，对该词语对应的各语义类别向量加权；

根据该词语对应的各语义类别的加权结果，确定该词语对应的特征向量。

可选地，根据该词语对应的特征向量，确定该词语中包含的各字对应的特征向量，具体包括：

根据该词语中包含的各字，确定该词语中包含的各字对应的原始特征向量；

根据该词语中包含的各字对应的原始特征向量，以及该词语对应的特征向量，确定该词语中包含的各字对应的特征向量。

可选地，将所述待识别全称的特征向量输入到缩略语生成模型，得到所述缩略语生成模型输出的所述待识别全称对应的缩略语，具体包括：

将所述待识别全称的特征向量输入到缩略语生成模型，得到所述缩略语生成模型输出的所述待识别全称中各字的标记；

根据所述待识别全称中所有字的标记，确定所述待识别全称的标记向量；

根据所述待识别全称的标记向量，确定所述待识别全称对应的缩略语。

可选地，将所述特征向量输入到缩略语生成模型，得到所述缩略语生成模型输出的所述待识别全称中各字的标记，具体包括：

针对所述待识别全称中每个字，根据该字的相邻字的标记以及该字的相邻字对应的特征向量，确定该字的相邻字的目标特征向量；将该字对应的特征向量以及该字的相邻字的目标特征向量输入到所述缩略语生成模型，确定该字对应的保留概率；

根据该字对应的保留概率以及预设的概率阈值，确定该字的标记。

可选地，将所述待识别全称的特征向量输入到缩略语生成模型，得到所述缩略语生成模型输出的所述待识别全称中各字的标记，具体包括：

针对所述待识别全称中每个字，确定该字对应的各候选标记；

将该字对应的特征向量以及该字的相邻字的各候选标记输入到所述缩略语生成模型，确定将该字标记为各候选标记的概率；

根据所述待识别全称中所有字的标记，确定所述待识别全称的标记向量，具体包括：

遍历通过下述方式得到的所有标记向量：

将所述待识别全称中的每个字分别标记为每个字对应的一个候选标记，得到由将每个字所标记的候选标记构成的标记向量；

针对遍历得到的每个标记向量，根据将所述待识别全称中各字标记为该标记向量中各候选标记的概率，确定该标记向量的置信度；

根据遍历得到的各标记向量的置信度，在遍历得到的各标记向量中，选择预设数量的标记向量作为所述待识别全称的标记向量。

可选地，根据该字对应的保留概率以及预设的概率阈值，确定该字的标记，具体包括：

判断该字对应的保留概率是否大于预设的概率阈值；

若是，确定该字的标记为保留标记；

若否，确定该字的标记为缩略标记；

根据所述待识别全称的标记向量，确定所述待识别全称对应的缩略语，具体包括：

根据所述待识别全称的标记向量中包含的保留标记对应的字，确定所述待识别全称对应的缩略语。

本说明书提供了一种缩略语生成装置，包括：

待识别全称获取模块，用于获取待识别全称；

分词模块，用于对所述待识别全称进行分词，得到所述待识别全称中包含的各词语；

第一确定模块，用于针对每个词语，确定该词语对应的特征向量；

第二确定模块，用于根据该词语对应的特征向量，确定该词语中包含的各字对应的特征向量；

第三确定模块，用于根据所述待识别全称中各字对应的特征向量，确定所述待识别全称的特征向量；

缩略语生成模块，用于将所述待识别全称的特征向量输入到缩略语生成模型，得到所述缩略语生成模型输出的所述待识别全称对应的缩略语。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述缩略语生成方法。

本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述缩略语生成方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

在本说明书提供的缩略语生成方法中，在对待识别全称进行分词得到了待识别全称中包含的每个词以及每个词对应的特征向量，进而根据每个词对应的特征向量确定每个词中包含的所有字的特征向量，将待识别全称中各字对应的特征向量输入到缩略语生成模型中，得到待识别全称对应的缩略语。可见，通过结合词对应的特征向量确定词中包含的每个字对应的特征向量的方式，将字在其所在词中的语义等特征融合到字对应的特征向量中，体现了词的语义对字本身特征的影响，提高了通过缩略语生成模型得到的待识别全称对应的缩略语的准确性。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书中一种缩略语生成方法的流程示意图；

图2为本说明书中一种缩略语生成方法的流程示意图；

图3为本说明书中一种缩略语生成方法的流程示意图；

图4为本说明书中一种缩略语生成方法的流程示意图；

图5为本说明书提供的一种缩略语生成装置的示意图；

图6为本说明书提供的对应于图1的电子设备示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

另外，需要说明的是，本发明中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下，并获得由相应装置所有者给予授权的情况下进行的。

所谓缩略语，就是一个或多个词经过压缩而形成的意义相同、长度缩短的字或词，压缩之前的形式可称为缩略语对应的全称。例如，“环境保护”可被缩略为“环保”，“中医和西医”可以被缩略为“中西医”。由于缩略语简短精炼，可广泛应用在日常生活中，尤其是用户在使用检索系统时，会产生通过输入缩略语的方式检索缩略语对应的全称的信息的需求。因此，建立缩略语与全称之间的对应关系尤为重要。

目前采用的缩略语生成方法主要是根据全称中每个字本身的特征确定该字是否可以被缩略。然而，仅关注字本身的特征可能会忽略字在不同词中语义的不同，导致得到的缩略语不能完全体现全称的含义，甚至产生歧义。

例如，通常情况下，用户在输入缩略语检索缩略语对应的全称的信息时，希望缩略语对应的全称是唯一的，如果不考虑字在词中的含义，则可能会造成缩略语对应多个全称，导致搜索结果不准确。如，“华东师范大学”的缩略语可以为“华师”，然而在检索系统中检索“华师”，搜索结果会出现“华东师范大学”、“华南师范大学”以及“华中师范大学”。可见，仅关注“华”字本身的含义，而忽略了“华”在“华东”一词含义会导致“华东师范大学”中的“东”字的省略，进而影响了缩略词与全称之间对应关系。

本方法通过结合字所在词对应的特征向量确定字对应的特征向量的方式，将字在其所在词中的语义等特征融合到字对应的特征向量中，体现了词的语义对字本身特征的影响，提高了后续通过缩略语生成模型得到的待识别全称对应的缩略语的准确性。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

S100：获取待识别全称。

在本说明书实施例中，缩略语生成方法的执行主体可以是配置缩略语生成模型的服务器等电子设备，也可以是用户终端设备中安装的具有缩略语生成功能的客户端、浏览器等应用程序，本说明书仅以执行主体为服务器为例，对本说明书实施例进行具体说明。

在此步骤中，为了满足用户在使用检索系统时通过输入缩略语的方式检索缩略语对应的全称的信息的需求，获取到的待识别全称可以来源于用户的历史行为数据以及待挖掘全简称对应关系的全称形式，其中，用户的历史数据可包括用户历史检索的全称、用户历史检索的缩略语对应的全称形式等。

另外，本说明书实施例中待识别全称及其缩略语可以是中文，也可以是如英文、日文等其他形式的文字，本说明书对此不做限定，通常情况下，待识别全称的语言形式与其缩略语的语言形式相同。并且，为了便于理解，本说明书仅以待识别全称及其缩略语为中文为例，对本说明书实施例进行具体说明。

S102：对所述待识别全称进行分词，得到所述待识别全称中包含的各词语。

分词是自然语言处理(Natural Language Processing，NLP)的首要任务，这是由于针对较为复杂的词语或句子的语法语义分析通常以词为基本单位。由于英文等拉丁语系的词语之间有空格作为词边际的表示，这种词语一般情况下都能简单且准确的提取出来，而中文等文字，字词之间没有明显的词边际，在NLP任务中，首要解决的问题就是把连续的中文分割成更具有语言语义学上具有意义的词，这就需要通过分词将文字数量较多的词语或句子划分为多个简短的字或词语。本说明书实施例采用的分词方法可以是目前现有的任意一个分词方法，如基于深度学习的中文分词方法等。本说明书对分词所采用的方法不做限定。

S104：针对每个词语，确定该词语对应的特征向量。

在此步骤中，针对上述步骤S102分词得到的待识别全称中每个词语，利用词向量生成模型提取该词语的特征向量。其中，词向量生成模型可根据给定的语料库，有效地将一个词语表达成向量的形式。生成的词的特征向量具有词的语义特征，将词语的不同句法和语义特征分布在词的特征向量中的每一个维度。本申请实施例中采用的词语特征向量生成模型可以是连续词袋模型(Continuous Bag-Of-Words Model，CBOW)、跳字模型(Continuous Skip-gram Model，Skip-gram)等。

S106：根据该词语对应的特征向量，确定该词语中包含的各字对应的特征向量。

针对每个词语包含的所有字，利用字向量生成模型得到该字的原始特征向量，再结合上述步骤S104中得到的词语对应的特征向量，将该字的原始特征向量与该字所在词对应的特征向量融合，得到融合后该字对应的特征向量。其中，字的原始特征向量与字所在词的特征向量的融合方式可以是拼接、加权求和等，本说明书对此不做限定。在此步骤中采用的字向量生成模型的种类和作用与上述步骤S104中采用的词向量生成模型类似，仅生成向量针对的对象不同，此处不再赘述。

例如，针对“北京郊区”一词中的“北”确定特征向量时，如果仅关注“北”一个字的特征，“北”可指示方位，意为北方。但是结合“京”字可得，“北京”为城市。如果仅体现“北”字代指方位的特征，可能会将“北京郊区”缩略为“北郊”，显然“北郊”也可以代指“北方的郊区”从而造成歧义。但实际上应当体现“北京”代指城市这一特征，将“北京郊区”缩略为“京郊”。

可见，本说明书实施例中待识别全称中每个字的特征向量均是根据字本身的原始特征向量以及字所在词的特征向量融合而来，由于结合了字在词中的语义特征以及词本身的语义特征，使得提取出的字的特征更符合上下文语义，提高了后续生成待识别全称对应的缩略语的准确度，避免生成的缩略语不能完全表达待识别全称的全部语义，或者产生歧义的情况。

S108：根据所述待识别全称中各字对应的特征向量，确定所述待识别全称的特征向量。

通过上述步骤S104至S106得到了待识别全称中每个字对应的特征向量，将待识别全称中所有字对应的特征向量按照字的语义顺序依次拼接，得到待识别全称的特征向量。所述待识别全称的特征向量包含了每个字的语义特征、每个字在其所在词的语义特征以及每个词的语义类别特征，相较于目前仅关注于字本身特征的方法，本说明书实施例提供的融合了词的语义类别特征的方法更能体现出字在词中不同的含义以及词本身的类别属性，提高了生成出的缩略语的准确性，使得全称和缩略语的对应关系更加明确精准，进而提高了用户检索缩略语得到缩略语对应的全称的信息的准确性。

S110：将所述待识别全称的特征向量输入到缩略语生成模型，得到所述缩略语生成模型输出的所述待识别全称对应的缩略语。

在实际应用中，将所述缩略语生成模型输出的所述待识别全称对应的至少一个缩略语与所述待识别全称对应，建立全称与缩略语对应关系。也即，用户通过检索缩略语可得到缩略语对应的全称，进而满足用户通过检索缩略语获取缩略语对应的全称的信息的需求。其中，本说明书实施例中所采用的缩略语生成模型可包括目前现有的基于循环神经网络(Recurrent Neural Network，RNN)模型、长短期记忆网络(Long Short-Term Memory，LSTM)模型等模型的缩略语生成模型。

本说明书实施例中，如图1步骤S104所示的针对每个词语，确定该词语对应的特征向量，具体通过以下步骤确定：

首先，针对每个词语，确定该词语对应的各语义类别。并确定该词语对应的各语义类别的向量。

在实际应用中，根据词语的属性，可将词语本身划分到不同的类别中，如依据词性划分，可将词语划分为名词、动词、形容词、连词等类别；依据语义划分，可将词语划分为城市、地点、方位、行业、机构等。可见，不同的划分依据以及不同的词语类别均可影响词语的特征向量的确定。其中，本说明书实施例中以将词语的语义作为划分类比的依据为例，对具体方案进行阐述，这是由于，词语的语义类别更能体现词语的特征，进而确定出在生成缩略词的过程中更具有实际意义的词语的特征向量。

例如，以“宠物咖啡厅”为例，“宠物”和“咖啡厅”按照词性类别划分，均被划分为名词，这对于生成缩略词并没有实际意义，而“咖啡厅”按照语义类别划分时，可被划分为行业、机构等。显然，在生成缩略词的过程中按照语义类别区分，更能够体现语义类别对词语特征的影响。

其次，根据该词语对应的各语义类别向量以及该词语的相邻词语对应的各语义类别向量，确定该词语对应的各语义类别的置信度；所述语义类别的置信度用于表征该词语对应的各语义类别符合该词语在所述待识别全称中各语义的概率。

通常情况下，一个词语可以对应于多个语义类别，但是通过结合具体的上下文语境，可以确定词语的类别，或者可以确定词语在当前上下文语境中更偏向于某个类别。

例如，“北京大学”中的“大学”的语义类别可以是机构、地点等，但是结合上下文语境可知，相较于地点这一类别，机构这一语义类别更能够体现“大学”在“北京大学”中的语义属性。因此，“大学”一词在“北京大学”这一语境中更偏向于机构这一类别，即，对于“大学”来说，机构这一语义类别的置信度要高于地点这一语义类别的置信度。

可见，在此步骤中，结合词语本身的各语义类别向量以及词语的相邻词语的各语义类别向量，确定词语对应的各语义类别的置信度，即为确定词语在当前上下文语境中偏向各语义类别的程度。

然后，以该词语对应的各语义类别的置信度为权重，对该词语对应的各语义类别向量加权。

例如，仍以“北京大学”为例，“北京”对应的语义类别可以为城市、地点，语义类别向量分别为w₁₁、w₁₂；“大学”对应的语义类别可以为机构、地点、出版物，语义类别向量分别为w₂₁、w₂₂、w₂₃。根据词语对应的各语义类别向量以及该词语的相邻词语对应的各语义类别向量，针对“北京”确定其对应的城市的语义类别置信度为c₁₁、地点的语义类别置信度为c₁₂。针对“大学”确定其对应的机构的语义类别置信度为c₂₁、地点的语义类别置信度为c₂₂、出版物的语义类别置信度为c₂₃。以词语对应的各语义类别的置信度为权重，对词语对应的各语义类别向量加权，针对“北京”可得各语义类别向量的加权结果分别为c₁₁w₁₁、c₁₂w₁₂。针对“大学”可得各语义类别向量的加权结果分别为c₂₁w₂₁、c₂₂w₂₂、c₂₃w₂₃。

最后，根据该词语对应的各语义类别的加权结果，确定该词语对应的特征向量。

为了体现词语对应的各语义类别对词语特征向量的影响，尤其是更符合当前上下文语境的词语的语义类别对词语特征向量的重要性，根据词语对应的各语义类别的置信度以及对应的各语义类别向量，进行加权求和，得到词语对应的特征向量。以词语对应的各语义类别的加权求和后的向量来确定词语对应的特征向量不仅将词语对应的不同的语义类别的特征体现在词语的特征向量中，还通过语义类别向量置信度这一权重，着重体现了更符合当前上下文语境的词语的语义类别对词语特征向量的重要性，使得生成的词语的特征向量更符合当前上下文语境，提高了后续生成词语所包含的所有字对应的特征向量的准确性和个性化。在此步骤中，还可针对待识别全称中每个词语，利用词向量生成模型得到该词语的原始特征向量，并结合上述得到的该词语对应的各语义类别的加权结果，确定该词对应的特征向量。

例如，仍以“北京大学”为例，根据上述举例中得到的各词语对应的各语义类别的加权结果，针对“北京”可确定对应的各语义类别的加权结果为c₁₁w₁₁+c₁₂w₁₂，针对“大学”可确定对应的各语义类别的加权结果为c₂₁w₂₁+c₂₂w₂₂+c₂₃w₂₃。

需要说明的是，通过执行上述步骤S104至步骤S106得到的待识别全称中每个字的特征向量至少可以表征字本身的语义特征、字所在词语本身的语义特征以及字所在词语的语义类别特征。也即，针对待识别全称中每个字，根据该字的原始特征向量、该字所在词的原始特征向量以及该字所在词的语义类别向量，确定该字的特征向量。由于结合了字在词中的语义特征以及词本身的语义特征，使得提取出的字的特征更符合上下文语义，提高了后续生成待识别全称对应的缩略语的准确度，避免生成的缩略语不能完全表达待识别全称的全部语义，或者产生歧义的情况。

本说明书实施例中，如图1步骤S110所示的将所述待识别全称的特征向量输入到缩略语生成模型，得到所述缩略语生成模型输出的所述待识别全称对应的缩略语中，所述缩略语生成模型输出的待识别全称对应的缩略语可以是一个，也可以是多个，具体通过以下两种情况确定：

对于缩略语生成模型输出的待识别全称对应的缩略语是一个的情况，如图2所示，通过以下步骤实现：

S200：针对所述待识别全称中每个字，根据该字的相邻字的标记以及该字的相邻字对应的特征向量，确定该字的相邻字的目标向量，将该字对应的特征向量以及该字的相邻字的目标特征向量输入到所述缩略语生成模型，确定该字对应的保留概率。

具体的，本说明书实施例中将缩略语的生成作为序列标注任务，针对待识别全程中的每个字进行标记，进而根据标记确定标记对应的字是否在缩略语中保留。采用的缩略语生成模型可以为基于RNN模型以及LSTM模型的序列对序列(Sequence-to-Sequence，seq2seq)模型。其中，seq2seq模型结构中的编码器采用双向LSTM模型结构，解码器采用RNN模型结构。

其中，为了体现上下文语境对字的特征向量的影响，针对待识别全称中每个字，根据该字的相邻字的标记以及该字的相邻字对应的特征向量，确定该字的相邻字对应的目标特征向量，将该字对应的特征向量以及该字的相邻字对应的目标特征向量作为输入，经过编码器以及解码器后，输出该字对应的状态向量，该字的状态向量用于确定该字的标记。在上述方式中，在确定待识别全称中每个字的标记时，都利用了相邻字的目标特征向量，由于根据字的标记确定的字的目标特征向量是具有体现语境的实际意义的，利用当前字的相邻字的目标特征向量用于确定当前字的标记，可充分体现了上下文语境对字的缩略的影响，进而提高了缩略语表示其对应的全称的准确性。通常情况下，字的相邻字可以是该字的前一个字，也可是该字的后一个字，本说明书对此不做限定。

可选地，由于生成缩略语的过程中，待识别全称中每个字的缩略结果仅包含两个：在缩略语中保留，或者省略。因此，为了简化操作，可将根据缩略语生成模型输出的每个字对应的状态向量确定每个字对应的保留概率，并预先设置概率阈值，判断每个字对应的保留概率与预设的概率阈值之间的关系：当字对应的保留概率大于预设的概率阈值时，说明该字如果在缩略语中被省略可能会影响缩略语的语义，应当被保留；当字对应的保留概率不大于预设的概率阈值时，说明该字如果在缩略语中被省略，影响缩略语的语义的可能性较小，可以被省略。

S202：判断该字对应的保留概率是否大于预设的概率阈值。若是，执行步骤S204，否则，执行步骤S206。

S204：确定该字的标记为保留标记。执行步骤S208。

S206：确定该字的标记为缩略标记。

在实际应用中，为了便于执行NLP任务，可以将保留标记定义为“1”，缩略标记定义为“0”。在确定了待识别全称中每个字对应的标记后，可根据每个字对应的标记，通过转换函数确定该字对应的目标特征向量，其中，当该字对应的标记为保留标记时，该字对应的目标特征向量可以以该字的原始特征向量表征，也可以以该字的原始特征向量结合该字所在词的特征向量确定的该字的特征向量表征，还可以是以其他形式的向量表征。当该字对应的标记为省略标记时，该字对应的目标特征向量为零向量。通过转换函数确定的字对应的语义向量可用于确定该字的相邻字的标记，体现上下文语境对字的缩略或保留的影响，使得生成的缩略语更符合上下文语境，提高缩略语表征其对应的全称的准确度。通常情况下，字的相邻字可以是该字的前一个字，也可是该字的后一个字，本说明书对此不做限定。

例如，如图3所示的是本说明书实施例提供的利用缩略语生成模型确定“北京大学”中每个字的标记的示意图。以“北”字为例，对方案进行详细阐述。x₁是“北”字对应的原始特征向量，e₁“北”字对应的特征向量，h₁是经编码器编码后得到的“北”字对应的第一中间向量，s₁是经解码器解码后得到的“北”字对应的第二中间向量，根据“北”字对应的第一中间向量h₁以及“北”字对应的第二中间向量s₁可以得到缩略语生成模型输出的“北”字对应的状态向量y₁。根据y₁，通过转换函数，可得到“北”字对应的标记为保留标记“1”，进一步根据“北”字对应的保留标记确定“北”字对应的目标特征向量为o₁，根据o₁可确定保留“北”字，也可以将o₁输入到解码器中，用于生成下一个字器京”字的状态向量。以此类推，最终可得到“北”字对应的标记为保留标记“1”、“京”字对应的标记为缩略标记“0”、“大”字对应的标记为保留标记“1”、“学”字对应的标记为缩略标记“0”。

S208：根据所述待识别全称中所有字的标记，确定所述待识别全称的标记向量。

通常情况下，待识别全称的标记向量由待识别全称中所有字的标记按各字在待识别全称中的顺序拼接而成。例如，“北京大学”一词中“北”的标记为“1”，“京”的标记为“0”，“大”的标记为“1”，“学”的标记为“0”，则“北京大学”的标记向量为“1010”。

S210：根据所述待识别全称的标记向量，确定所述待识别全称对应的缩略语。

具体的，根据所述待识别全称的标记向量中包含的保留标记对应的字，确定所述待识别全称对应的缩略语。例如，“北京大学”的标记向量为“1010”，则根据保留标记“1”对应的字“北”和“大”确定“北京大学”的缩略语为“北大”。

对于缩略语生成模型输出的待识别全称对应的缩略语是多个的情况：例如，“中央电视台”对应的缩略语可以为“中央台”以及“央视”。这是由于如图2步骤S200至S208所示的确定待识别全称的标记向量的方式可以视为基于贪婪搜索算法确定标记向量，即，将确定待识别全称的标记向量拆分为确定待识别全称中每个字的标记，进而针对每个字都确定出了最佳的标记。而在实际应用中，可以基于集束搜索算法等针对每个字确定多个候选标记，基于每个字对应的多个候选标记确定多个标记向量，并从中选取符合待识别全称语义的多个标记向量，进而确定至少一个待识别全称对应的缩略语。

如图4所示，确定待识别全称对应的多个标记向量可具体通过以下步骤实现：

S300：针对所述待识别全称中每个字，确定该字对应的各候选标记。

其中，本说明书实施例中确定出的待识别全称中每个字对应的各候选标记是用于生成待识别全称的缩略语的，因此，在此步骤中通常情况下确定出的字对应的各候选标记为保留标记以及缩略标记两种候选标记。

S302：将该字对应的特征向量以及该字的相邻字的各候选标记输入到所述缩略语生成模型，确定将该字标记为各候选标记的概率。

具体的，将该字标记为各候选标记的概率包括：将该字标记为保留标记的概率以及将该字标记为缩略标记的概率。

S304：将所述待识别全称中的每个字分别标记为每个字对应的一个候选标记，得到由将每个字所标记的候选标记构成的标记向量。

在此步骤中，得到的由将每个字所标记的候选标记构成的标记向量可以作为确定待识别全称对应的标记向量时所用的搜索空间，根据搜索空间中所有标记向量的置信度进行排序，将置信度较高的若干个作为待识别全称对应的标记向量。其中，搜索空间中标记向量的置信度用于指示将待识别全称中每个字按照标记向量中每个标记进行标记得到的缩略语符合待识别全称语义的概率。

S306：遍历通过上述方式得到的所有标记向量。针对遍历得到的每个标记向量，根据将所述待识别全称中各字标记为该标记向量中各候选标记的概率，确定该标记向量的置信度。

标记向量的置信度可根据前述步骤S302得到的将字标记为各候选标记的概率确定，其中，确定标记向量置信度的方式可以是根据将待识别全称中各字标记为该标记向量中每个标记的概率的乘积确定，也可以针对待识别全程中的每个字，以将该字的相邻字的标记为候选标记为前提，计算将该字标记为每个候选标记的条件概率。通常，前述该字的相邻字可以为该字的前一个字，也可以为该字的后一个字。该字具体的标记向量的置信度确定方式本说明书不做限定。

S308：根据遍历得到的各标记向量的置信度，在遍历得到的各标记向量中，选择预设数量的标记向量作为所述待识别全称的标记向量。

例如，“上海交通大学”的标记向量可以有64个，根据将每个字分别标记为各候选标记的概率确定出概率最高的两个“111010”以及“101000”作为“上海交通大学”的标记向量，也即，“上海交通大学”的缩略语为“上海交大”以及“上交”。

在本说明书一个可选的实施例中，如图4所示的S304至S308所示的确定待识别全称的标记向量中，为了缩小搜索空间，还可以根据确定出的将待识别全称中各字标记为各候选标记的概率，针对待识别全称中每个字，根据将该字标记为各候选标记的概率，以及将该字的相邻字标记为各候选标记的概率，确定若干概率较高的标记作为该字的目标标记，然后，根据待识别全称中所有字对应的目标标记确定待识别全称对应的标记向量。

例如，以待识别全称为“上海交通大学”为例，确定出的将前述六个字标记为保留标记的概率依次为：0.8、0.5、0.9、0.1、0.5、0.1。同理，将前述六个字标记为省略标记的概率依次为：0.2、0.5、0.1、0.9、0.5、0.9。预先设置集束搜索宽度为2，即每次选择两个概率较高的标记作为目标标记。针对第一个字“上”，由于集束搜索宽度为2，因此保留标记以及省略标记均可作为“上”的候选标记。针对第二个字“海”，由于可以在“上”字或保留或省略的前提下讨论“海”字的标记，因此可根据“上”和“海”分别标记为保留标记以及省略标记的概率，确定“上海”两字保留和省略的四种情况的概率。以保留标记为“1”省略标记为“0”为例，“00”的概率为0.1、“01”的概率为0.1，“10”的概率为0.4，“11”的概率为0.4。可见，在针对第二个字“海”选择目标标记时，应当选择标记“11”以及“10”。以此类推，可以得到“上海交通大学”对应的标记向量为“101000”以及“111010”，即“上海交通大学”的缩略语为“上交”以及“上海交大”。

在本说明书一个可选的实施例中，如图1步骤S104至步骤S110所使用的特征向量生成模型以及缩略语生成模型可以是经过预先训练的模型，其中，用于训练词语特征向量生成模型的训练样本可以是人工标注的词语以及与词语对应的若干语义类型。用于训练缩略语生成模型的训练样本可以是人工标注的全称以及全称对应的若干缩略语。

以上为本说明书的一个或多个实施例提供的缩略语生成方法，基于同样的思路，本说明书还提供了相应的缩略语生成装置，如图5所示。

图5为本说明书提供的一种缩略语生成装置示意图，具体包括：

待识别全称获取模块400，用于获取待识别全称；

分词模块402，用于对所述待识别全称进行分词，得到所述待识别全称中包含的各词语；

第一确定模块404，用于针对每个词语，确定该词语对应的特征向量；

第二确定模块406，用于根据该词语对应的特征向量，确定该词语中包含的各字对应的特征向量；

第三确定模块408，用于根据所述待识别全称中各字对应的特征向量，确定所述待识别全称的特征向量；

缩略语生成模块410，用于将所述待识别全称的特征向量输入到缩略语生成模型，得到所述缩略语生成模型输出的所述待识别全称对应的缩略语。

可选地，所述第一确定模块404具体用于，确定该词语对应的各语义类别；并确定该词语对应的各语义类别向量；根据该词语对应的各语义类别向量以及该词语的相邻词语对应的各语义类别向量，确定该词语对应的各语义类别的置信度；所述语义类别的置信度用于表征该词语对应的各语义类别符合该词语在所述待识别全称中各语义的概率；以该词语对应的各语义类别的置信度为权重，对该词语对应的各语义类别向量加权；根据该词语对应的各语义类别的加权结果，确定该词语对应的特征向量。

可选地，所述第二确定模块406具体用于，根据该词语中包含的各字，确定该词语中包含的各字对应的原始特征向量；根据该词语中包含的各字对应的原始特征向量，以及该词语对应的特征向量，确定该词语中包含的各字对应的特征向量。

可选地，所述缩略语生成模块410具体用于，将所述待识别全称的特征向量输入到缩略语生成模型，得到所述缩略语生成模型输出的所述待识别全称中各字的标记；根据所述待识别全称中所有字的标记，确定所述待识别全称的标记向量；根据所述待识别全称的标记向量，确定所述待识别全称对应的缩略语。

可选地，所述缩略语生成模块410具体用于，针对所述待识别全称中每个字，根据该字的相邻字的标记以及该字的相邻字对应的特征向量，确定该字的相邻字的目标特征向量；将该字对应的特征向量以及该字的相邻字的目标特征向量输入到所述缩略语生成模型，确定该字对应的保留概率；根据该字对应的保留概率以及预设的概率阈值，确定该字的标记。

可选地，所述缩略语生成模块410具体用于，针对所述待识别全称中每个字，确定该字对应的各候选标记；将该字对应的特征向量以及该字的相邻字的各候选标记输入到所述缩略语生成模型，确定将该字标记为各候选标记的概率；

可选地，所述缩略语生成模块410具体用于，遍历通过下述方式得到的所有标记向量：将所述待识别全称中的每个字分别标记为每个字对应的一个候选标记，得到由将每个字所标记的候选标记构成的标记向量；针对遍历得到的每个标记向量，根据将所述待识别全称中各字标记为该标记向量中各候选标记的概率，确定该标记向量的置信度；根据遍历得到的各标记向量的置信度，在遍历得到的各标记向量中，选择预设数量的标记向量作为所述待识别全称的标记向量。

可选地，所述缩略语生成模块410具体用于，判断该字对应的保留概率是否大于预设的概率阈值；若是，确定该字的标记为保留标记；若否，确定该字的标记为缩略标记；

可选地，所述缩略语生成模块410具体用于，根据所述待识别全称的标记向量中包含的保留标记对应的字，确定所述待识别全称对应的缩略语。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的缩略语生成方法。

本说明书还提供了图6所示的电子设备的示意结构图。如图6所述，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的缩略语生成方法。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种缩略语生成方法，其特征在于，包括：

获取待识别全称；

针对每个词语，确定该词语对应的特征向量；

2.如权利要求1所述的方法，其特征在于，针对每个词语，确定该词语对应的特征向量，具体包括：

3.如权利要求1所述的方法，其特征在于，根据该词语对应的特征向量，确定该词语中包含的各字对应的特征向量，具体包括：

4.如权利要求1所述的方法，其特征在于，将所述待识别全称的特征向量输入到缩略语生成模型，得到所述缩略语生成模型输出的所述待识别全称对应的缩略语，具体包括：

5.如权利要求4所述的方法，其特征在于，将所述特征向量输入到缩略语生成模型，得到所述缩略语生成模型输出的所述待识别全称中各字的标记，具体包括：

针对所述待识别全称中每个字，根据该字的相邻字的标记以及该字的相邻字对应的特征向量，确定该字的相邻字的目标特征向量；

将该字对应的特征向量以及该字的相邻字的目标特征向量输入到所述缩略语生成模型，确定该字对应的保留概率；

6.如权利要求4所述的方法，其特征在于，将所述待识别全称的特征向量输入到缩略语生成模型，得到所述缩略语生成模型输出的所述待识别全称中各字的标记，具体包括：

遍历通过下述方式得到的所有标记向量：

7.如权利要求5所述的方法，其特征在于，根据该字对应的保留概率以及预设的概率阈值，确定该字的标记，具体包括：

判断该字对应的保留概率是否大于预设的概率阈值；

若是，确定该字的标记为保留标记；

若否，确定该字的标记为缩略标记；

8.一种缩略语生成装置，其特征在于，包括：

待识别全称获取模块，用于获取待识别全称；

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1～7任一项所述的方法。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1～7任一项所述的方法。