CN110096697A

CN110096697A - 词向量矩阵压缩方法和装置、及获取词向量的方法和装置

Info

Publication number: CN110096697A
Application number: CN201910199574.9A
Authority: CN
Inventors: 谢月飞; 宋增猛; 王俊; 汤华; 马占寅
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2019-08-06
Anticipated expiration: 2039-03-15
Also published as: CN110096697B

Abstract

本申请公开了词向量矩阵压缩方法和装置、及获取词向量的方法和装置，涉及数据处理技术领域，有助于节省客户端设备的存储空间。词向量矩阵压缩方法包括：基于词向量模型生成用于表征待处理词汇的词向量矩阵，并将所生成的词向量矩阵作为待压缩词向量矩阵；待压缩词向量矩阵的一行或一列是一个词向量，待压缩词向量矩阵中的一个词向量用于表征待处理词汇中的一个词；根据待处理词汇的语义信息，对待压缩词向量矩阵所包括的词向量进行分类，得到至少两个类别；对该至少两个类别中至少一个类别进行压缩，并根据该至少一个类别压缩后得到的词向量，构建经压缩的词向量矩阵，并存储该经压缩的词向量矩阵。

Description

词向量矩阵压缩方法和装置、及获取词向量的方法和装置

技术领域

本申请涉及数据处理技术领域，尤其涉及词向量矩阵压缩方法和装置、及获取词向量的方法和装置。

背景技术

随着深度学习技术的发展，自然语言处理(natural language processing，NLP)任务的性能得到了大幅度的提升，其中，NLP任务可以包括：分词、词性标注、命名实体识别(named-entity recognition，NER)、句子分类、对话系统等。基于深度学习技术，NLP任务的核心在于通过语言模型对词汇进行表示，语言模型除了包含词本身的含义，还要体现出不同词之间的关系，比如同义词、反义词及上下文关系等。

词向量矩阵是语言模型的一种具体表示方式。词向量矩阵是由一个或多个词向量(word vector)构成的矩阵。词向量，也可以称为词特征向量，用于表征词的特征信息。“通过词向量表示词”是搜索引擎、广告系统、推荐系统等互联网服务中常见的基础技术。

由于语言具有词汇量大及句法、语法复杂的特点，因此需要大量的特征对其进行刻画，因此生成的词向量矩阵体积庞大，占据比较大的存储空间，通常不可直接在客户端设备中应用。因此，需要提供有效的词向量矩阵压缩方法。

发明内容

本申请实施例提供了词向量矩阵压缩方法和装置、及获取词向量的方法和装置，有助于节省客户端设备的存储空间。

为了实现上述目的，本申请实施例提供的以下技术方案：

第一方面，提供了一种词向量矩阵压缩方法，包括：基于词向量模型生成用于表征待处理词汇的词向量矩阵，并将所生成的词向量矩阵作为待压缩词向量矩阵；待压缩词向量矩阵的一行或一列是一个词向量，待压缩词向量矩阵中的一个词向量用于表征待处理词汇中的一个词；根据待处理词汇的语义信息，对待压缩词向量矩阵进行压缩，得到经压缩的词向量矩阵，并存储该经压缩的词向量矩阵。该方法的执行主体可以是服务器。在一个示例中，经压缩的词向量矩阵可以存储在服务器的非易失性存储介质如外存中，例如外存可以是硬盘等。在另一个示例中，经压缩的词向量矩阵可以存储在服务器的易失性存储介质如内存中。本技术方案中，根据待处理词汇的语义信息，对待压缩词向量矩阵进行压缩。这样，客户端设备可以通过存储经压缩的词向量矩阵，获得用于表征待处理词汇的词向量矩阵，而不需要直接存储用于表征待处理词汇的词向量矩阵，因此，可以节省客户端设备的存储空间。并且，有助于实现在压缩率一定的情况下，提高经压缩的词向量矩阵与待压缩词向量矩阵的接近程度，也就是说，提高客户端设备获取到的用于表征待处理词汇的词向量矩阵的准确度。

在一种可能的设计中，根据待处理词汇的语义信息，对待压缩词向量矩阵进行压缩，得到经压缩的词向量矩阵，包括：根据待处理词汇的语义信息，对待压缩词向量矩阵所包括的词向量进行分类，得到至少两个类别；对该至少两个类别中至少一个类别进行压缩，并根据该至少一个类别压缩后得到的词向量，构建经压缩的词向量矩阵。例如，待处理词汇的语义信息可以包括：待处理词汇中的词的含义、词性、同义词、反义词等。例如，对至少两个类别中的每个类别分别进行压缩，并将压缩后得到的词向量构成经压缩的词向量矩阵。

在一种可能的设计中，根据待处理词汇的语义信息，对待压缩词向量矩阵所包括的词向量进行分类，得到至少两个类别，包括：对待压缩词向量矩阵包括的词向量进行聚类，得到A个类别；2≤A＜N，N是待压缩词向量矩阵包含的词向量的个数；A和N均是整数。对至少两个类别中至少一个类别进行压缩，并根据至少一个类别压缩后得到的词向量，构建经压缩的词向量矩阵，包括：根据A个类别中的各类别的类别中心构成的矩阵，得到经压缩的词向量矩阵。其中，每个类别具有一个类别中心。一个类别的类别中心用于表征该类别中的各词向量的共有特征。聚类本身是将具有相似性的词向量聚为同一个类别，同一个类别中的词向量之间的相似性是基于这些词向量所表征的词的语义信息确定的，因此，该可能的设计中，使用聚类方法实现对待压缩词向量矩阵包括的词向量的数量进行压缩。

在一种可能的设计中，根据A个类别中的各类别的类别中心构成的矩阵，得到经压缩的词向量矩阵，包括：将A个类别中的各类别的类别中心构成的矩阵作为经压缩的词向量矩阵。

在一种可能的设计中，根据A个类别中的各类别的类别中心构成的矩阵，得到经压缩的词向量矩阵，包括：将用于表示第一矩阵的B个特征向量构成的矩阵，作为经压缩的词向量矩阵；第一矩阵是A个类别中的各类别的类别中心构成的矩阵；B＜F，F是待压缩词向量矩阵中的一个词向量的维度，B和F均是整数。其中，“特征向量”可以是对待压缩词向量矩阵进行主成分分析(principal component analysis，PCA)或奇异值分解(singular valuedecomposition，SVD)得到的，当然本申请实施例不限于此。这样，可以进一步对待压缩词向量矩阵进行压缩，从而进一步节省客户端设备的存储空间。

在一种可能的设计中，该方法还包括：根据第一压缩率，确定A的取值；其中，第一压缩率是对待压缩词向量矩阵包含的词向量的数量进行压缩的压缩率。第一压缩率可以是预定义的，或者是基于传输带宽需求和/或词的准确度需求等因素确定的。

在一种可能的设计中，A个类别的类别中心包括：待压缩词向量矩阵中的、且用于表征待处理词汇中的常用词的词向量。其中，常用词是使用频率大于或等于预设频率的词。这样，可以快速确定A个类别。

在一种可能的设计中，N个类别包括第一类别，第一类别可以是N个类别中的任意一个类别。基于此，该方法还包括：将第一类别的类别中心所表征的词，作为第一类别包含的各词向量所表征的词对应的代表词；向客户端设备发送该代表词与第一类别包含的各词向量所表征的词之间的对应关系。客户端设备可以是本地设备或移动终端等，如手机、平板电脑、个人电脑、可穿戴设备等。这样，有助于客户端设备获得用于表征待处理词汇的词向量矩阵。

在一种可能的设计中，该方法还包括：向客户端设备发送经压缩的词向量矩阵。如在接收到客户端设备发送的用于请求待处理词汇的请求消息时，向该客户端设备发送经压缩的词向量矩阵，以及经压缩词向量矩阵的代表词与待处理词汇中的词之间的对应关系。

在一种可能的设计中，在接收到客户端设备发送的请求消息，且该请求消息用于请求待处理词汇的情况下，向该客户端设备发送经压缩的词向量矩阵，以及待处理词汇的多个代表词与待处理词汇中的多个词之间的对应关系。

第二方面，提供了一种词向量矩阵压缩方法，包括：基于词向量模型生成用于表征待处理词汇的词向量矩阵，并将所生成的词向量矩阵作为待压缩词向量矩阵；待压缩词向量矩阵的一行或一列是一个词向量，待压缩词向量矩阵中的一个词向量用于表征待处理词汇中的一个词；确定用于表示待压缩词向量矩阵的F个特征向量；F是待压缩词向量矩阵中的一个词向量的维度，F是整数；根据B个特征向量构成的矩阵和待压缩词向量矩阵，得到经压缩的词向量矩阵；该F个特征向量包括该B个特征向量，B≤F，B是整数。可选的，该方法还可以包括：存储该经压缩的词向量矩阵。该技术方案的执行主体可以是服务器。本技术方案中，使用用于表示待压缩词向量矩阵的特征向量来实现对该矩阵的压缩。这样，有助于客户端设备可以通过存储经压缩的词向量矩阵，获得用于表征待处理词汇的词向量矩阵，而不需要直接存储用于表征待处理词汇的词向量矩阵，因此，可以节省客户端设备的存储空间。并且，有助于实现在压缩率一定的情况下，提高经压缩的词向量矩阵与待压缩词向量矩阵的接近程度，也就是说，提高客户端设备获取到的用于表征待处理词汇的词向量矩阵的准确度。

在一种可能的设计中，根据B个特征向量构成的矩阵和待压缩词向量矩阵，得到经压缩的词向量矩阵，包括：将待压缩词向量矩阵投影到B个特征向量构成的矩阵上，得到投影后的矩阵；根据投影后的矩阵，得到经压缩的词向量矩阵。例如，将待压缩词向量矩阵乘以B个特征向量构成的矩阵后得到的矩阵，作为投影后的矩阵。

在一种可能的设计中，根据投影后的矩阵，得到经压缩的词向量矩阵，包括：将投影后的矩阵作为经压缩的词向量矩阵。

在一种可能的设计中，根据投影后的矩阵，得到经压缩的词向量矩阵，包括：根据待处理词汇的语义信息，对投影后的矩阵中的词向量进行分类，得到至少两个类别，并对该至少两个类别中至少一个类别进行压缩，根据该至少一个类别压缩后得到的词向量，构建经压缩的词向量矩阵。例如，对投影后的矩阵中的词向量构成的矩阵进行聚类，得到A个聚类中心，并将A个聚类中心构成的矩阵作为经压缩的词向量矩阵；A＜N，N是待压缩词向量矩阵包含的词向量的个数；A和N均是整数。这样，可以进一步对待压缩词向量矩阵进行压缩，从而进一步节省客户端设备的存储空间。该方案的具体实现方式可以参考上述第一方面中的任一种可能的设计。

在一种可能的设计中，在确定用于表示待压缩词向量矩阵的F个特征向量的同时，还确定了用于表示待压缩词向量矩阵的F个特征值，特征向量与特征值一一对应。基于此，B个特征向量所对应的特征值是F个特征值按照从大到小的顺序排列的前B个特征值，或者是F个特征值中的大于或等于预设阈值的B个特征值。这样，有助于提高客户端设备获取到的用于表征待处理词汇的词向量矩阵的准确度。

在一种可能的设计中，该方法还包括：根据第二压缩率，确定B的取值；其中，第二压缩率是对待压缩词向量矩阵包含的词向量的特征信息进行压缩的压缩率。第二压缩率可以是预定义的，或者可以是基于传输带宽需求和/或词的准确度需求等因素确定的。

在一种可能的设计中，确定用于表示待压缩词向量矩阵的F个特征向量和F个特征值，包括：对待压缩词向量矩阵进行PCA或SVD，以获取F个特征向量和F个特征值。

在一种可能的设计中，该方法还包括：向客户端设备发送经压缩的词向量矩阵。

第三方面，本申请实施例提供了一种获取词向量的方法，包括：获取用于表征待处理词汇的经压缩的词向量矩阵、待处理词汇中的多个词与待处理词汇的多个代表词之间的对应关系以及多个代表词与经压缩的词向量矩阵中的多个词向量之间的对应关系；一个代表词与经压缩的词向量矩阵中的一个词向量对应；根据该多个词与该多个代表词之间的对应关系，在该多个词中查找待处理词，以确定待处理词对应的代表词，并将待处理词对应的代表词作为目标代表词；根据该多个代表词与该多个词向量之间的对应关系，在该多个代表词中查找目标代表词，以确定目标代表词对应的词向量，并将目标代表词对应的词向量作为用于表征待处理词的词向量。该方法的执行主体可以是客户端设备。该方法与第一方面提供的相应的技术方案相对应，因此，其相关内容的解释和有益效果的描述可以参考上述第一方面。

在一种可能的设计中，通过网络从服务器获取经压缩的词向量矩阵和该多个词与该多个代表词之间的对应关系。

在一种可能的设计中，该方法还包括：向服务器发送请求消息，请求消息用于请求待处理词汇，或者用于请求用于表征待处理词汇的词向量矩阵。

在一种可能的设计中，根据该多个词与该多个代表词之间的对应关系，在该多个词中查找待处理词，以确定待处理词对应的目标代表词，包括：执行NLP任务的过程中，根据多该个词与该多个代表词之间的对应关系，在该多个词中查找待处理词，以确定待处理词对应的目标代表词。

第四方面，本申请实施例提供了一种词向量矩阵压缩装置，该装置可以是服务器或芯片。该装置可以用于执行上述第一至第二方面提供的任一种方法。

在一种可能的设计中，可以根据上述第一方面至第二方面提供的任一种方法对该装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。

在另一种可能的设计中，该装置包括存储器和处理器，该存储器用于存储计算机指令，处理器用于调用该计算机指令，以执行第一方面至第二方面提供的任一种方法。

第五方面，本申请实施例提供了一种获取词向量的装置，该装置可以是客户端设备或芯片。该装置可以用于执行上述第三方面提供的任一种方法。

在一种可能的设计中，可以根据上述第三方面提供的任一种方法对该装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。

在另一种可能的设计中，该装置包括存储器和处理器，该存储器用于存储计算机指令，处理器用于调用该计算机指令，以执行第三方面提供的任一种方法。

应注意，本申请中描述的存储器和处理器可以集成在一块芯片上，也可以分别设置在不同的芯片上，本申请对存储器的类型以及存储器与处理器的设置方式不做限定。

本申请实施例还提供了一种计算机可读存储介质，包括程序代码，该程序代码包括用于执行第一方面至第二方面提供的任一方法的部分或全部步骤的指令。

本申请实施例还提供了一种计算机可读存储介质，包括程序代码，该程序代码包括用于执行第三方面提供的任一方法的部分或全部步骤的指令。

本申请实施例还提供了一种计算机可读存储介质，其上储存有计算机程序，当该计算机程序在计算机上运行时，使得计算机执行上述第一方面至第二方面提供的任一种可能的方法。

本申请实施例还提供了一种计算机可读存储介质，其上储存有计算机程序，当该计算机程序在计算机上运行时，使得计算机执行上述第三方面提供的任一种可能的方法。

本申请实施例还提供了一种计算机程序产品，当其在计算机上运行时，使得第一方面至第二方面提供的任一方法被执行。

本申请实施例还提供了一种计算机程序产品，当其在计算机上运行时，使得第一方面至第三方面提供的任一方法被执行。

可以理解地，上述提供的任一种词向量矩阵压缩装置、获取词向量的装置、计算机可读存储介质或计算机程序产品等均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考对应的方法中的有益效果，此处不再赘述。

附图说明

图1为传统技术提供的一种服务器的逻辑结构示意图；

图2为可适用于本申请一实施例的系统架构的示意图；

图3为本申请实施例提供的一种词向量矩阵压缩方法的流程图；

图4为本申请实施例提供的一种获取词向量的方法的流程图；

图5为本申请实施例提供的一种词向量矩阵压缩装置的结构示意图；

图6为本申请实施例提供的另一种词向量矩阵压缩装置的结构示意图；

图7为本申请实施例提供的一种获取词向量的装置的结构示意图；

图8为可适用于本申请实施例的一种通信设备的结构示意图。

具体实施方式

以下简单介绍本申请实施例涉及的相关术语，以方便读者理解。

词汇，是一种语言(包括汉语、英语等)中所有的或特定范围内的单词和/或短语的总和。在本申请实施例中，如果不加说明，“词”可以表示单词，也可以表示短语。其中，这里的单词包括汉字中的“字”和“词”，以及英文等语言中的“单词”。

词的语义(semantic)信息，是用于描述该词的特征信息构成的集合。其中，词的特征信息可以包括但不限于以下至少一种：词的含义、词性(如名词、形容词等)、同义词和反义词等。例如，“美丽”的语义信息可以包括：含义为“好看，即在形式、比例、布局、风度、颜色或声音上接近完美或理想境界，使各种感官极为愉悦”；词性为形容词；同义词为“漂亮”；反义词为“丑陋”等。词汇的语义信息包括该词汇所包含的各词的特征信息。

词向量，是词的特征信息所映射成的数字构成的向量。词与词向量一一对应。

词向量模型，是用于将词转换为词向量的模型。词向量模型是由词向量工具经训练得到的，词向量工具可以为word2vec(word to vector)工具等，本申请实施例对此不做具体限定。

词向量矩阵，是由词汇所包含的各词对应的词向量构成的矩阵。通常，词向量矩阵中的一行或一列元素表示一个词向量。在本申请实施例中，如果不加说明，均是以词向量矩阵中的一行表示一个词向量为例进行说明的。关于“使用词向量矩阵中的一列表示一个词向量时的词向量矩阵压缩方法及获取词向量的方法”可以依据下文中所描述的技术方案推理得到，本申请实施例对此不进行具体描述。在一个示例中，词向量中的元素依次为：词的含义、词性、同义词和反义词映射得到的元素，基于此，如果词向量矩阵中的一行表示一个词向量，则该词向量中的第1～4列分别表示各词向量所表征的词的含义、词性、同义词、反义词。

聚类，是将数据对象按照相似性划分为若干个集合的过程。每个集合又可以称为是一个类别，每个类别包括多个具有相似特征的数据对象。同一个类别中的数据对象彼此相似(或相似度高)，不同类别中的数据对象彼此相异(或相似度低)。不同类别中包括的数据对象的个数可以相等，也可以不相等。每个类别具有一个类别中心(或称为中心数据对象)。该类别中心用于表征该类别中的各数据对象的共有特征。一个类别的类别中心可以是该类别中的一个元素，也可以不是该类别中的元素。在本申请实施例中，用于聚类的数据对象可以是词向量，相应的，类别中心也可以是词向量。

本申请实施例中的术语“至少一个(种)”包括一个(种)或多个(种)。“多个(种)”是指两个(种)或两个(种)以上。例如，A、B和C中的至少一种，包括：单独存在A、单独存在B、同时存在A和B、同时存在A和C、同时存在B和C，以及同时存在A、B和C。在本申请的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。“多个”是指两个或多于两个。另外，为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

由于语言具有词汇量大及句法、语法复杂的特点，因此需要大量的特征对其进行刻画。而客户端设备的存储空间较小，因此在用于表征词汇的词向量矩阵中的每个元素的比特数一定的情况下，要求该词向量矩阵的维度不能太大。在传统技术中，通常使用“神经网络模型裁剪”的方法来限定词向量的维度，从而满足词向量矩阵的维度不能太大的需求。

以下，结合图1对传统技术提供的技术方案进行描述。

如图1所示，为基于传统技术提供的服务器的逻辑结构示意图。基于图1，传统技术所提供的技术方案可以包括：首先由训练单元101使用初始神经网络模型对神经网络进行训练，其中，初始神经网络模型可以是服务器自身训练得到的，或者可以是第三方设备(即除服务器之外的设备)训练得到的。然后，由压缩单元102对初始神经网络模型的规模(如层数或尺寸)进行裁剪，接着由训练单元101重新训练裁剪后的神经网络。依照此规则训练得到词向量模型。接着，词向量矩阵获取单元103基于该词向量模型和待处理词汇得到词向量矩阵，该词向量矩阵即是压缩后的词向量，可以直接供客户端设备使用，如执行NLP任务。其中，训练单元101和压缩单元102可以一起构成词向量模型获取模块。

例如，如果客户端设备中安装了淘宝应用(主要是针对商品卖方的淘宝应用)，且淘宝应用需要将用户对某一商品的评价区分为“好评”、“中评”和“差评”，则客户端设备在首次启动淘宝应用时，可以向服务器请求用于表征与对商品的评价相关的待处理词汇的词向量矩阵，然后，客户端设备可以基于该词向量矩阵，执行句子分类任务(即一种NLP任务)。具体的：针对用户的任意一条评价(即自然语言)，客户端设备可以根据该词向量矩阵，以及该词向量矩阵中的词向量与其所表征的词之间的对应关系，将该评价中的部分或全部词转换为词向量，再对转换得到的词向量进行分析，从而确定该评价是“好评”、“中评”还是“差评”。其中，对词向量进行分析的具体实现方式可以参考现有技术，此处不再赘述。

如果客户端设备的存储空间较小，则服务器需要使用较高的压缩率对用于表征待处理词汇的词向量矩阵进行压缩。而采用“神经网络模型裁剪”的方法限定词向量矩阵(或者说对词向量矩阵进行压缩)的维度，属于“硬压缩”，这会随着压缩率增高，导致词向量模型的性能急剧下降。

基于此，本申请实施例提供了一种词向量矩阵压缩方法和装置，以及相应的获取词向量的方法和装置。

以下，结合附图，介绍本申请实施例提供的技术方案所适用的系统架构。

如图2所示，为可适用于本申请一实施例的系统架构的示意图。图2所示的系统架构包括服务器200和与服务器200连接的至少一个客户端设备300。服务器200与客户端设备300之间可以通过网络、通用串行总线(universal serial bus，USB)接口、蓝牙等方式通信。

服务器200可以是个人计算机(personal computer，PC)、小型机、中型机或大型机或云服务器等。服务器200可以用于执行本申请实施例提供的词向量矩阵压缩方法。

客户端设备300可以是本地设备或移动终端等，如手机、平板电脑、个人电脑、可穿戴设备等。客户端设备300可以用于执行本申请实施例提供的获取词向量的方法。

以下，结合附图，对本申请实施例提供的词向量矩阵压缩方法和获取词向量的方法进行说明。

如图3所示，为本申请实施例提供的一种词向量矩阵压缩方法的流程图。图3所示的方法可以包括如下步骤：

S101：服务器确定词向量模型。

词向量模型可以是服务器离线或在线训练大量的词得到的，或者，可以是第三方设备训练大量的词得到并由服务器从该第三方设备获取的。训练过程中所使用的大量的词可以包括待处理词汇中的部分或全部词，或者不包括待处理词汇中的词。

在一个示例中，如果词向量模型具体是神经网络模型，则服务器可以将初始神经网络模型(如第三方设备提供的神经网络模型)直接作为S101中的词向量模型，而不需要如图1所示的传统技术一样，对神经网络模型进行裁剪，并重新训练神经网络得到词向量模型。而对神经网络模型进行裁剪，并重新训练神经网络需要耗费的较长的时间。

S102：服务器基于S101中所确定的词向量模型，将待处理词汇转换为词向量矩阵，并将该词向量矩阵作为待压缩词向量矩阵。

待处理词汇中的一个词对应待压缩词向量矩阵中的一个词向量。本申请实施例中假设待压缩词向量矩阵是N*F的矩阵，即N行F列的矩阵。其中，N是待压缩词向量矩阵包括的词向量的个数，F是一个词向量的维数。本申请实施例对N和F的取值不进行限定。

根据S101～S102可知，本申请实施例提供的词向量矩阵压缩方法是发生在获得词向量模型之后的。根据上文中的描述可知，传统技术方案如图1所示的技术方案中，词向量矩阵压缩方法是发生在获得词向量模型的过程中的。

S103：服务器对待压缩词向量矩阵包括的N个词向量进行聚类，得到A个类别，以及每个类别的类别中心。其中，A＜N，A是整数。每个类别中心可以是一个词向量。在本申请实施例中，每个类别中心所表征的词称为代表词。

可选的，A＝α*N，α是对待压缩词向量矩阵的词向量数量进行压缩的压缩率，0＜α＜1。α可以是预定义的，或者是基于传输带宽需求和/或词的准确度需求等因素确定的。例如，假设待压缩词向量矩阵是10000*160的矩阵，即N＝10000，F＝160；并且，α＝0.3，那么，A＝0.3*10000＝3000。

本申请实施例对服务器执行聚类操作时所采用的聚类算法不进行限定，例如可以是k-means聚类算法、层次聚类算法、自组织特征图(self-organizing feature map，SOM)算法、模糊C均值(fuzzy C-means，FCM)算法、均值漂移聚类算法、基于密度的聚类算法等。

在一个示例中，以聚类算法具体是k-means聚类算法为例，对N个词向量进行聚类，得到A个类别的过程可以包括如下步骤1～3：

步骤1：从N个词向量中随机选择A个词向量作为A个类别的初始类别中心。

步骤2：对于N个词向量中的除类别中心之外的每个词向量来说，将A个类别中心中的与该词向量之间的距离(如欧式距离)最近的类别中心所属的类别，作为该词向量所属的类别，从而得到A个类别。其中，欧氏距离，即欧几里得度量(euclidean metric)，是指在m维空间中两个点之间的真实距离，或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离是两点之间的实际距离。

步骤3：对于每个类别来说，使用该类别中的每个词向量的平均向量，更新该类别的类别中心，从而得到更新后的A个类别中心。其中，平均向量中的第i个元素是该多个词向量中的第i个元素的平均值，1≤i≤F。

执行W次“步骤2～步骤3”。并将第W次执行步骤2得到的A个类别作为S103中得到的A个类别。对于第W次执行步骤3得到的A个类别中心中的类别中心j来说，将类别j中的各词向量中的与该类别中心j之间的距离(如欧式距离)最小的词向量，作为S103中得到的类别中心j。类别j的类别中心是类别中心j。1≤j≤A，j是整数。如此，可以获得S103中得到的A个类别中心。其中，第1次执行步骤2时所使用的类别中心是步骤1中的初始类别中心。其中，W≥1，W是整数。例如，W＝30000。

W的取值可以是预定义的。或者，由于W的取值越大，聚类效果越好(即同一类别中的各词向量的相似度越高)，但是，聚类过程所需的时长会越长。因此，具体实现的过程中，可以基于聚类效果和/或聚类过程所需的时长等因素来确定W的取值。

在另一个示例中，对N个词向量进行聚类，得到A个类别的过程可以包括：首先确定A个类别的类别中心，例如，可以将待处理词汇(如新闻稿)中的常用词等对应的词向量作为类别中心。其中，常用词是使用频率大于或等于预设频率的词。然后，对于N个词向量中的除类别中心之外的每个词向量来说，将A个类别中心中的与该词向量之间的距离(如欧式距离)最近的类别中心所属的类别，作为该词向量所属的类别，从而得到A个类别。

待压缩词向量矩阵中的N个词向量与聚类得到的A个类别及A个类别中心之间的对应关系，可以如表1所示。

表1

其中，不同词向量可以归于同一类别，也可以归于不同类别。同一类别可以包含一个或多个词向量。类别j的类别中心是类别中心j。1≤j≤A，j是整数。

S104：服务器获取A个类别中的每个类别中心所表征的代表词，并存储A个类别中心与其所表征的A个代表词之间的对应关系，类别中心与代表词一一对应。

服务器确定一个词向量对应的词(即类别中心对应的代表词)的具体实现方式可以参考现有技术。

本申请实施例对服务器存储类别中心与其所表征的代表词之间的对应关系的具体实现方式不进行限定，例如，可以以表格形式进行存储。基于此，在S104中，服务器所存储的A个类别中心与A个代表词之间的对应关系的一种示例可以如表2所示。

A个类别中心与A个代表词之间的对应关系可以如表2所示。

表2

类别中心	代表词
		类别中心1	代表词1
类别中心2	代表词2
		类别中心3	代表词3
……	……
		类别中心A	类别中心A

S105：服务器将每个类别中心的代表词作为归属于该类别的各词对应的代表词，即建立待压缩词向量矩阵所表征的N个词(即待处理词汇中的N个词)与A个类别中心所表征的代表词与之间的对应关系，并存储该对应关系。

本申请实施例对服务器存储词与代表词之间的对应关系的具体实现方式不进行限定，例如，可以以表格形式进行存储。基于此，待处理词汇中的N个词与A个代表词之间的对应关系的一种示例可以如表3所示。

表3

待处理词汇中的词	代表词
		词1	代表词1
词2	代表词3
		词3	代表词1
词4	代表词A-1
		……	……
词N	代表词A

上述S103～S105可以认为是服务器基于词向量的个数的方向对待压缩词向量矩阵进行压缩的具体实现方式，即对待压缩词向量矩阵的行数进行压缩的具体实现方式。

S106：服务器将A个类别的类别中心构成第一矩阵。例如，将类别中心j作为第一矩阵中的第j个行向量，或者，将类别中心j作为第一矩阵中的第j个列向量。下文中均以将类别中心j作为第一矩阵中的第j个行向量为例进行说明，基于此，第一矩阵是A*F的矩阵。

第一矩阵是服务器对待压缩词向量矩阵的行数进行压缩后得到的矩阵。

由于聚类本身是将具有相似性的词向量聚为同一个类别，同一个类别中的词向量之间的相似性是基于这些词向量所表征的词的语义信息确定的，因此，上述S103～S105可以认为是“基于待处理词汇的语义信息对待压缩词向量矩阵进行压缩”的具体实现方式。另外，相比传统技术方案(如图1所示的技术方案)，S103～S105所描述的压缩方法得到的第一矩阵，可以保留待压缩词向量矩阵中具有高区分力度的词向量，也就是说，相比传统技术方案，在压缩率相同的情况下，第一矩阵可以更准确地表达待压缩词向量矩阵。

S107：服务器基于词向量所包括的特征信息的个数的方向，对第一矩阵进行压缩，即对第一矩阵的列数进行压缩，得到第二矩阵(即对待压缩词向量矩阵进行压缩后得到的矩阵，即经压缩的词向量矩阵)。然后，存储第二矩阵。

下文中将第一矩阵标记为D_A×F，将第二矩阵标记为D_A×B，其中，F＞B≥1，B是整数。

在一个示例中，S107可以包括如下步骤：

步骤1：对第一矩阵D_A×F进行PCA或SVD，得到F个特征向量和F个特征值，其中，第i个特征向量v_i与第i个特征值w_i对应。1≤i≤F，i是整数。

对第一矩阵进行PCA得到F个特征向量和F个特征值的计算过程如下：

1)、对第一矩阵中的各元素进行归一化，得到矩阵X，矩阵X是一个A*F的矩阵。其中，将第一矩阵中的第i个行向量的第j个维度的元素标记为可以基于公式对进行归一化。其中，1≤i≤A，1≤j≤F，i和j均是整数。

2)、求矩阵X的协方差矩阵C。C是一个F*F的矩阵，其中，X^T是矩阵X的转置矩阵。X是对第一矩阵中的各元素进行归一化后得到的值构成的矩阵。其中，对进行归一化后得到的值是矩阵X中的第i行第j列的元素。

3)、求矩阵C的F个特征向量和F个特征值。第i个特征向量v_i与第i个特征值w_i对应。并将所得到的F个特征向量和F个特征值作为对第一矩阵进行PCA得到F个特征向量和F个特征值。

需要说明的是，对第一矩阵进行SVD得到F个特征向量和F个特征值的计算过程可以参考现有技术，此处不再赘述。另外，可以理解的是，对第一矩阵进行处理得到F个特征向量和F个特征值的方法还可以包括其他技术，不仅限于PCA和SVD。

步骤2：按照所对应的特征值从大到小的顺序，对F个特征向量进行排序，选择排序后得到的F个特征向量中的前B个特征向量，并将选择的B个特征向量构成投影矩阵W_F×B。或者，选择特征值大于或等于预设阈值的B个特征值对应的特征向量，并将将选择的B个特征向量构成投影矩阵W_F×B。B个特征向量中的一个特征向量是投影矩阵W_F×B中的一个列。

可选的，B＝β*F。β是对待压缩词向量矩阵的词的特征信息(即待压缩词向量矩阵的列数)进行压缩的压缩率，0＜β＜1。β可以是预定义的，或者可以是基于传输带宽需求和/或词的准确度需求等因素确定的。例如，假设β＝0.85，F＝160，那么，B＝0.85*160＝136。

步骤3：将第一矩阵D_A×F投影到矩阵W_F×B，得到第二矩阵D_A×B。如根据公式D_A×B＝D_A×F*W_F×B，得到矩阵D_A×B。

可以理解的是，矩阵W_F×B是由B个特征向量构成的，且特征向量之间两两正交，也就是说，矩阵W_F×B表示了一个正交坐标系。将第一矩阵D_A×F投影到矩阵W_F×B，可以认为是将第一矩阵D_A×F投影到矩阵W_F×B所表示的坐标系上。第二矩阵D_A×B是第一矩阵D_A×F投影到矩阵W_F×B所表示的坐标系后的投影值。

以待压缩词向量矩阵是10000*160的矩阵，即N＝10000，F＝160，并且，α＝0.3，β＝0.85为例，A＝0.3*10000＝3000，B＝0.85*160＝136，即经压缩的词向量矩阵是3000*136的矩阵，整体的压缩率为

上述步骤1～3可以认为是“确定用于表示待压缩词向量矩阵的F个特征向量和F个特征值，并根据F个特征向量中的与B个特征向量构成的矩阵，得到经压缩的词向量矩阵”的具体实现方式。

需要说明的是，本实施例中是以“先将N*F的待压缩词向量矩阵压缩成A*F的矩阵，N＞A；再将A*F的矩阵压缩成A*B的矩阵，F＞B”为例进行说明的。另外：

在一种实现方式中，服务器可以先将N*F的待压缩词向量矩阵压缩成N*B的矩阵，F＞B；再将N*B的矩阵压缩成A*B的矩阵，N＞A。

在另一种实现方式中，服务器可以先将N*F的待压缩词向量矩阵压缩成A*F的矩阵，N＞A，且将N*F的待压缩词向量矩阵压缩成N*B的矩阵，F＞B，这两个步骤的执行顺序不分先后，再根据A*F的矩阵和N*B的矩阵，得到A*B的矩阵。

在又一种实现方式中，服务器可以仅对待压缩词向量矩阵的行数进行压缩，而不对列数进行压缩；或者仅对待压缩词向量矩阵的列数进行压缩，而不对行数进行压缩。

基于上述任一种实现方式，对一个矩阵包含的行数进行压缩的方法可以参考上述S103～S106，对一个矩阵包含的列数进行压缩的方法可以参考上述S107，此处不再赘述。

需要说明的是，上述对待压缩词向量矩阵的行数和/或列数进行压缩，可以认为是根据待处理词汇的语义信息对待压缩词向量矩阵进行压缩的具体实现方式。

本申请实施例提供的技术方案中，基于待处理词汇的语义信息对用于表征待处理词汇的词向量矩阵进行压缩，这样，有助于在保证准确率的情况下，提高压缩率减少压缩后的词向量矩阵所占的存储空间。其中，准确率是指压缩后的词向量矩阵所表征的词汇与待压缩后的词向量矩阵所表征的词汇之间的相似度，相似度越高，则准确度越高。和/或，本技术方案中，使用用于表示一个矩阵的特征向量来实现对该矩阵的压缩。相比传统技术方案(如图1所示的技术方案)，在相同压缩率的情况下，本技术方案所得到的矩阵(如第二矩阵)可以更准确地表达待压缩词向量矩阵。

如图4所示，为本申请实施例提供的一种获取词向量的方法的流程图。图4所示的方法可以包括如下步骤：

S201：客户端设备向服务器发送请求消息，该请求消息用于请求待处理词汇。该请求消息中可以包含待处理词汇的标识信息。

例如，如果客户端设备中安装了针对商品卖方的淘宝应用，且淘宝应用需要将用户对某一商品的评价区分为“好评”、“中评”和“差评”，则客户端设备可以在首次启动淘宝应用时，向服务器发送请求消息，以请求与对商品的评价相关的待处理词汇。

S202：服务器根据该请求消息，向客户端设备发送用于表征待处理词汇的经压缩的词向量矩阵，以及待处理词汇中的多个词与待处理词汇的多个代表词之间的对应关系(如表3所示的对应关系)。可选的，如果服务器和客户端设备之间没有预先约定该多个代表词与经压缩的词向量矩阵中的多个词向量之间的对应关系，则服务器还可以向客户端发送多个代表词与经压缩的词向量矩阵中的多个词向量之间的对应关系(如表2所示的对应关系)。

其中，这里的“经压缩的词向量矩阵”可以是上文中所描述的经压缩的词向量矩阵。本申请实施例中，将S202中的两组对应关系统称为辅助信息。

可以理解的是，由于代表词与经压缩的词向量矩阵中的词向量之间一一对应，因此，具体实现的过程中，服务器和客户端之间可以预先约定代表词的编号与经压缩的词向量矩阵中的词向量的编号之间的对应关系，例如，第u个代表词对应经压缩的词向量矩阵中的第u个词向量，u是大于或等于1的整数。基于此，服务器可以不用向客户端设备发送代表词与经压缩的词向量矩阵中的词向量之间的对应关系。

可选的，请求消息中还可以包含用于服务器确定压缩率的信息，例如，该信息可以是客户端设备用于存储待处理词汇的信息的存储空间的大小。基于此，服务器可以根据该信息确定对用于表征待处理词汇的词向量矩阵(即图3所示的实施例中的待压缩词向量矩阵)进行压缩的压缩率。基于此，对于服务器来说：

在一种实现方式中，服务器可以基于该压缩率执行图3所示的词向量矩阵压缩方法，然后，将压缩过程中所产生的辅助信息发送给客户端设备。

在另一种实现方式中，服务器可以预先按照不同的压缩率，针对待处理词汇的待压缩词向量矩阵，执行图3所示的词向量矩阵压缩方法，并存储不同压缩率对应的辅助信息。基于此，服务器可以根据预存的多种压缩率与多种辅助信息之间的对应关系，从该多种压缩率中查找基于请求信息所确定的压缩率，以确定基于请求信息所确定的压缩率对应的辅助信息；然后，将所确定的辅助信息发送给客户端设备。

S203：客户端设备存储该多个词与该多个代表词之间的对应关系，以及该多个代表词与该多个词向量之间的对应关系。具体的，客户端设备存储待处理词汇中的各词、待处理词汇的各代表词、经压缩的词向量矩阵、词与代表词之间的对应关系以及代表词与经压缩的词向量矩阵中的词向量之间的对应关系等。

S204：对于待处理词汇中的待处理词来说，客户端设备根据该多个词与该多个代表词之间的对应关系，从该多个词中查找待处理词，以确定待处理词对应的代表词(即目标代表词)；并根据该多个代表词与该多个词向量之间的对应关系，从该多个代表词中查找目标代表词，以确定目标代表词对应的词向量。将目标代表词对应的词向量作为待处理词对应的词向量。

其中，待处理词可以是待处理词汇中的任意一个词。

从多个词中查找待处理词，可以包括：按照多个词的编号由小到大或由大到小的顺序，依次将该多个词中的每个词与待处理词进行匹配，如果匹配成功(即该多个词中的某个词与待处理词相同)，则认为查找到了待处理词，则结束匹配过程。

在一个示例中，客户端设备可以在执行NLP任务的过程中，执行S204。基于此，待处理词可以是待处理词汇中的当前执行NLP任务时所需要转换的词。具体的，客户端设备可以根据NLP任务需求确定待处理词，从获取待处理词对应的词向量，这样可以节省存储空间。

以NLP任务是句子分类，且客户端设备是安装了淘宝应用(主要是针对商品卖方的淘宝应用)的设备为例，针对用户对商品的任意一条评价(即自然语言)，客户端设备可以将从评价中所提取的部分或全部词分别作为待处理词，并基于上述S201～S204，先获取待处理词对应的代表词，再将该代表词对应的词向量作为该待处理词对应的词向量，然后，对这些词对应的词向量进行分析，从而确定该评价是“好评”、“中评”还是“差评”。其中，对词向量进行分析的具体实现方式可以参考现有技术，此处不再赘述。相比传统技术方案(如图1所示的技术方案)，在相同压缩率的情况下，本技术方案所得到的经压缩的矩阵可以更准确地表征待处理词汇，因此基于上述S201～S204获取的词向量更能准确地表征待处理词汇中的词。

在一个示例中，客户端设备可以在首次启动执行NLP任务的应用时，开始执行S201～S203，并按需执行S204。当然本申请实施例不限于此。

在一个示例中，服务器可以在待处理词汇更新(如待处理词汇中的词增加)或者用于表征待处理词汇的词向量矩阵更新(如使用更多的特征信息来表征一个词)时，主动向客户端设备推送更新后的经压缩的词向量矩阵。当然本申请实施例不限于此。

本申请实施例提供的获取词向量的方法，与上文中所描述的词向量矩阵压缩方法相对应，因此，其所能达到的有益效果可以参考上文，此处不再赘述。

上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对词向量矩阵压缩装置或获取词向量的装置进行功能模块的划分，例如可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

如图5所示，为本申请实施例提供的一种词向量矩阵压缩装置50的结构示意图。作为一个示例，词向量矩阵压缩装置50可以是服务器。词向量矩阵压缩装置50可以用于执行图3所示的词向量矩阵压缩方法。

如图5所示，词向量矩阵压缩装置50可以包括词向量矩阵获取单元501和压缩单元502。可选的，如图6所示，词向量矩阵压缩装置50还可以包括确定单元503、代表词获取单元504和发送单元505中的部分或全部。

在一些实施例中：

词向量矩阵获取单元501用于基于词向量模型生成用于表征待处理词汇的词向量矩阵，并将所生成的词向量矩阵作为待压缩词向量矩阵；待压缩词向量矩阵的一行或一列是一个词向量，待压缩词向量矩阵中的一个词向量用于表征待处理词汇中的一个词。压缩单元502用于根据待处理词汇的语义信息，对待压缩词向量矩阵进行压缩，得到经压缩的词向量矩阵。例如结合图3，词向量矩阵获取单元501可用于执行S102，压缩单元502可以用于执行S103～S107。

在一种可能的设计中，压缩单元502具体用于：根据待处理词汇的语义信息，对待压缩词向量矩阵所包括的词向量进行分类，得到至少两个类别；对至少两个类别中至少一个类别进行压缩，并根据至少一个类别压缩后得到的词向量，构建经压缩的词向量矩阵。

在一种可能的设计中，压缩单元502具体用于：对待压缩词向量矩阵包括的词向量进行聚类，得到A个类别；A＜N，N是待压缩词向量矩阵包含的词向量的个数；A和N均是整数；根据A个类别中的各类别的类别中心构成的矩阵，得到经压缩的词向量矩阵。

在一种可能的设计中，压缩单元502在执行根据A个类别中的各类别的类别中心构成的矩阵，得到经压缩的词向量矩阵时，具体用于：将A个类别中的各类别的类别中心构成的矩阵，作为经压缩的词向量矩阵。例如，结合图3，压缩单元502可以用于执行S103和S106，并将第一矩阵作为经压缩的词向量矩阵。或者，将用于表示第一矩阵的B个特征向量构成的矩阵，作为经压缩的词向量矩阵；第一矩阵是A个类别中的各类别的类别中心构成的矩阵；B＜F，F是待压缩词向量矩阵中的一个词向量的维度，B和F均是整数。例如，结合图3，压缩单元502可以用于执行S103、S106和S107。

在一种可能的设计中，确定单元503，用于根据第一压缩率，确定A的取值；其中，第一压缩率是对待压缩词向量矩阵包含的词向量的数量进行压缩的压缩率。

在一种可能的设计中，A个类别的类别中心包括：待压缩词向量矩阵中的、且用于表征待处理词汇中的常用词的词向量。

在一种可能的设计中，代表词获取单元504，用于将N个类别中每个类别的类别中心所表征的词，作为该类别包含的各词向量所表征的词对应的代表词。发送单元505，用于向客户端设备发送待压缩词向量矩阵所表征的词与该词所对应的代表词之间的对应关系。例如，结合图3，代表词获取单元504可以用于执行S104。例如，结合图4，发送单元505可以用于执行S202中的发送步骤。

在一种可能的设计中，发送单元505用于向客户端设备发送经压缩的词向量矩阵。例如，结合图4，发送单元505可以用于执行S202中的发送步骤。

在一种可能的设计中，词向量矩阵压缩装置50还包括存储单元，用于存储经压缩的词向量矩阵。可选的，存储单元还用于存储待处理词汇中的多个词与待处理词汇的多个代表词之间的对应关系。

在另一些实施例中：

词向量矩阵获取单元501用于基于词向量模型生成用于表征待处理词汇的词向量矩阵，并将所生成的词向量矩阵作为待压缩词向量矩阵；待压缩词向量矩阵的一行或一列是一个词向量，待压缩词向量矩阵中的一个词向量用于表征待处理词汇中的一个词。压缩单元502用于确定用于表示待压缩词向量矩阵的F个特征向量；F是待压缩词向量矩阵中的一个词向量的维度；以及，根据B个特征向量构成的矩阵和待压缩词向量矩阵，得到经压缩的词向量矩阵；B个特征向量选自F个特征向量。B＜F，B和F均是整数。

在一种可能的设计中，压缩单元502在执行根据B个特征向量和待压缩词向量矩阵构成的矩阵，得到经压缩的词向量矩阵时，具体用于：将待压缩词向量矩阵投影到B个特征向量构成的矩阵上，得到投影后的矩阵；根据投影后的矩阵，得到经压缩的词向量矩阵。

在一种可能的设计中，压缩单元502在执行根据投影后的矩阵，得到经压缩的词向量矩阵时，具体用于：将投影后的矩阵作为经压缩的词向量矩阵。

在一种可能的设计中，压缩单元502在执行根据投影后的矩阵，得到经压缩的词向量矩阵时，具体用于：将投影后的矩阵中的词向量进行聚类，得到A个聚类中心，并将A个聚类中心构成的矩阵作为经压缩的词向量矩阵；A＜N，N是待压缩词向量矩阵包含的词向量的个数；A和N均是整数。

在一种可能的设计中，压缩单元502在确定用于表示待压缩词向量矩阵的F个特征向量的同时，还确定了用于表示待压缩词向量矩阵的F个特征值，特征向量与特征值一一对应。基于此，B个特征向量所对应的特征值是F个特征值按照从大到小的顺序排列的前B个特征值，或者是F个特征值中的大于或等于预设阈值的B个特征值。

在一种可能的设计中，确定单元503，用于根据第二压缩率，确定B的取值；其中，第二压缩率是对待压缩词向量矩阵包含的词向量的特征信息进行压缩的压缩率。

在一种可能的设计中，压缩单元502在执行确定用于表示待压缩词向量矩阵的F个特征向量和F个特征值时，具体用于：对待压缩词向量矩阵进行PCA或SVD，以获取F个特征向量和F个特征值。

在一种可能的设计中，发送单元505，用于向客户端设备发送经压缩的词向量矩阵。

在一种可能的设计中，词向量矩阵压缩装置50还包括存储单元，用于存储经压缩的词向量矩阵。

上述提供的任一种词向量矩阵压缩装置50中相关内容的解释以及有益效果的描述等均可参考上述对应的方法实施例，此处不再赘述。

如图7所示，为本申请实施例提供的一种获取词向量的装置70的结构示意图。作为一个示例，获取词向量的装置70可以是客户端设备。获取词向量的装置70可以用于执行图4所示的获取词向量的方法。

获取词向量的装置70可以包括获取单元701和确定单元702。其中，获取单元701，用于获取用于表征待处理词汇的经压缩的词向量矩阵、待处理词汇中的多个词与待处理词汇的多个代表词之间的对应关系以及该多个代表词与经压缩的词向量矩阵中的多个词向量之间的对应关系；一个代表词与经压缩的词向量矩阵中的词向量对应。确定单元702，用于根据该多个词与该多个代表词之间的对应关系，在该多个词中查找待处理词，以确定待处理词对应的代表词，并将待处理词对应的代表词作为目标代表词；以及，根据该多个代表词与该多个词向量之间的对应关系，在该多个代表词中查找目标代表词，以确定目标代表词对应的词向量，并将目标代表词对应的词向量作为用于表征待处理词的词向量。例如，结合图4，获取单元701可以用于执行S202对应的接收步骤。确定单元702可以用于执行S204。

在一种可能的设计中，获取单元701具体用于通过网络从服务器获取用于表征待处理词汇的经压缩的词向量矩阵，以及待处理词汇中的多个词与待处理词汇的多个代表词之间的对应关系。

在一种可能的设计中，获取词向量的装置70还包括：发送单元703，用于发送请求消息，请求消息用于请求待处理词汇。

在一种可能的设计中，确定单元702在执行根据该多个词与该多个代表词之间的对应关系，在该多个词中查找待处理词，以确定待处理词对应的目标代表词时，具体用于：执行NLP任务的过程中，根据该多个词与该多个代表词之间的对应关系，在该多个词中查找待处理词，以确定待处理词对应的目标代表词。

上述提供的任一种获取词向量的装置70中相关内容的解释以及有益效果的描述等均可参考上述对应的方法实施例，此处不再赘述。

在硬件实现上，上述词向量矩阵压缩装置50或获取词向量的装置70均可以通过如图8所示的通信设备800实现。通信设备800包括至少一个处理器801，通信线路802，存储器803以及至少一个通信接口804。

处理器801可以是一个通用中央处理器(central processing unit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路。

通信线路802可包括一通路，在上述组件之间传送信息。

通信接口804，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，RAN，无线局域网(wireless local area networks，WLAN)等。

存储器803可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过通信线路802与处理器相连接。存储器也可以和处理器集成在一起。本申请实施例提供的存储器通常可以具有非易失性。其中，存储器803用于存储执行本申请方案的计算机指令，并由处理器801来控制执行。处理器801用于执行存储器803中存储的计算机指令，从而实现本申请实施例提供的上述方法。

在一个示例中，当上述词向量矩阵压缩装置50通过通信设备800来实现时，上述词向量矩阵获取单元501、压缩单元502、确定单元503和代表词获取单元504中的一个或多个单元可以通过处理器801执行存储器803中所存储的相应的计算机指令来实现。发送单元505可以通过通信接口804来实现。

在另一个示例中，当上述获取词向量的装置70通过通信设备800来实现时，上述获取单元701和确定单元702中的一个或多个单元可以通过处理器801执行存储器803中所存储的相应的计算机指令来实现。发送单元703可以通过通信接口804来实现。上述存储单元可以通过存储器803来实现。

可选的，本申请实施例中的计算机指令也可以称之为应用程序代码，本申请实施例对此不作具体限定。

在具体实现中，作为一种实施例，上述通信接口804可以是可选的。

在具体实现中，作为一种实施例，通信设备800可以包括多个处理器，例如图8中的处理器801和处理器807。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，通信设备800(如客户端设备)还可以包括输出设备805和输入设备806。输出设备805和处理器801通信，可以以多种方式来显示信息。例如，输出设备805可以是液晶显示器(liquid crystal display，LCD)、发光二级管(lightemitting diode，LED)显示设备、阴极射线管(cathode ray tube，CRT)显示设备或投影仪(projector)等。输入设备806和处理器801通信，可以以多种方式接收用户的输入。例如，输入设备806可以是鼠标、键盘、触摸屏设备或传感设备等。

在具体实现中，作为一种实施例，通信设备800还可以包括人工智能(artificialintelligence，AI)计算卡，AI计算卡用于在处理器801的控制下进行工作。例如，当词向量矩阵压缩装置50通过通信设备800来实现时，词向量矩阵获取单元501、压缩单元502、确定单元503和代表词获取单元504中的一个或多个单元可以通过AI计算卡实现。又如，当获取词向量的装置70通过通信设备800来实现时，获取单元701和确定单元702中的一个或多个单元可以通过AI计算卡实现。

本申请实施例不限定通信设备800的类型，例如，通信设备800可以是包含图8所示的硬件结构的通用的设备，也可以是包含图8所示的硬件结构的专用设备。

本申请实施例还提供了一种通信系统，该通信系统可以包括服务器和客户端设备。在一个示例中，该服务器可以是如图5或图6所示的词向量矩阵压缩装置，该客户端设备可以是与该服务器通信的设备。在另一个示例中，该客户端设备可以是如图7所示的获取词向量的装置，该服务器可以是与该客户端设备通信的设备。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机执行指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)，光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

尽管在此结合各实施例对本申请进行了描述，然而，在实施所要求保护的本申请过程中，本领域技术人员通过查看附图、公开内容、以及所附权利要求书，可理解并实现公开实施例的其他变化。在权利要求中，“包括”(comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。

尽管结合具体特征及其实施例对本申请进行了描述，显而易见的，在不脱离本申请的精神和范围的情况下，可对其进行各种修改和组合。相应地，本说明书和附图仅仅是所附权利要求所界定的本申请的示例性说明，且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种词向量矩阵压缩方法，其特征在于，包括：

基于词向量模型生成用于表征待处理词汇的词向量矩阵，并将所生成的词向量矩阵作为待压缩词向量矩阵；所述待压缩词向量矩阵的一行或一列是一个词向量，所述待压缩词向量矩阵中的一个词向量用于表征所述待处理词汇中的一个词；

根据所述待处理词汇的语义信息，对所述待压缩词向量矩阵所包括的词向量进行分类，得到至少两个类别；

对所述至少两个类别中至少一个类别进行压缩，并根据所述至少一个类别压缩后得到的词向量，构建经压缩的词向量矩阵，并存储所述经压缩的词向量矩阵。

2.根据权利要求1所述的方法，其特征在于，所述根据所述待处理词汇的语义信息，对所述待压缩词向量矩阵所包括的词向量进行分类，得到至少两个类别，包括：

对所述待压缩词向量矩阵包括的词向量进行聚类，得到A个类别；2≤A＜N，所述N是所述待压缩词向量矩阵包含的词向量的个数；所述A和所述N均是整数；

所述对所述至少两个类别中至少一个类别进行压缩，并根据所述至少一个类别压缩后得到的词向量，构建经压缩的词向量矩阵，包括：

根据所述A个类别中的各类别的类别中心构成的矩阵，得到所述经压缩的词向量矩阵。

3.根据权利要求2所述的方法，其特征在于，所述A个类别的类别中心包括：所述待压缩词向量矩阵中的、且用于表征所述待处理词汇中的常用词的词向量。

4.根据权利要求2或3所述的方法，其特征在于，所述根据所述A个类别中的各类别的类别中心构成的矩阵，得到所述经压缩的词向量矩阵，包括：

将所述A个类别中的各类别的类别中心构成的矩阵，作为所述经压缩的词向量矩阵；

或者，将用于表示第一矩阵的B个特征向量构成的矩阵，作为所述经压缩的词向量矩阵；所述第一矩阵是所述A个类别中的各类别的类别中心构成的矩阵；B＜F，所述F是所述待压缩词向量矩阵中的一个词向量的维度，所述B和所述F均是整数。

5.根据权利要求2至4任一项所述的方法，其特征在于，所述N个类别包括第一类别，所述方法还包括：

将所述第一类别的类别中心所表征的词，作为所述第一类别包含的各词向量所表征的词对应的代表词；

向客户端设备发送所述代表词与所述第一类别包含的各词向量所表征的词之间的对应关系。

6.一种词向量矩阵压缩方法，其特征在于，包括：

确定用于表示所述待压缩词向量矩阵的F个特征向量；所述F是所述待压缩词向量矩阵中的一个词向量的维度；所述F是整数；

将所述待压缩词向量矩阵投影到B个特征向量构成的矩阵上，得到投影后的矩阵；所述F个特征向量包括所述B个特征向量；B＜F，所述B是整数；

根据所述投影后的矩阵，得到经压缩的词向量矩阵，存储所述经压缩的词向量矩阵。

7.根据权利要求6所述的方法，其特征在于，所述根据所述投影后的矩阵，得到所述经压缩的词向量矩阵，包括：

将所述投影后的矩阵作为所述经压缩的词向量矩阵；

或者，根据所述待处理词汇的语义信息，对所述投影后的矩阵中的词向量进行分类，得到至少两个类别，并对所述至少两个类别中至少一个类别进行压缩，根据所述至少一个类别压缩后得到的词向量，构建所述经压缩的词向量矩阵。

8.根据权利要求6或7所述的方法，其特征在于，所述确定用于表示所述待压缩词向量矩阵的F个特征向量，包括：

对所述待压缩词向量矩阵进行主成分分析PCA或奇异值分解SVD，以获取所述F个特征向量。

9.一种获取词向量的方法，其特征在于，包括：

获取用于表征待处理词汇的经压缩的词向量矩阵、所述待处理词汇中的多个词与所述待处理词汇的多个代表词之间的对应关系以及所述多个代表词与所述经压缩的词向量矩阵中的多个词向量之间的对应关系；一个代表词与所述经压缩的词向量矩阵中的一个词向量对应；

根据所述多个词与所述多个代表词之间的对应关系，在所述多个词中查找待处理词，以确定所述待处理词对应的代表词，并将所述待处理词对应的代表词作为目标代表词；

根据所述多个代表词与所述多个词向量之间的对应关系，在所述多个代表词中查找所述目标代表词，以确定所述目标代表词对应的词向量，并将所述目标代表词对应的词向量作为用于表征所述待处理词的词向量。

10.根据权利要求9所述的方法，其特征在于，所述获取用于表征待处理词汇的经压缩的词向量矩阵、所述待处理词汇中的多个词与所述待处理词汇的多个代表词之间的对应关系，包括：

通过网络从服务器获取所述经压缩的词向量矩阵和所述多个词与所述多个代表词之间的对应关系。

11.一种词向量矩阵压缩装置，其特征在于，包括：

词向量矩阵获取单元，用于基于词向量模型生成用于表征待处理词汇的词向量矩阵，并将所生成的词向量矩阵作为待压缩词向量矩阵；所述待压缩词向量矩阵的一行或一列是一个词向量，所述待压缩词向量矩阵中的一个词向量用于表征所述待处理词汇中的一个词；

压缩单元，用于根据所述待处理词汇的语义信息，对所述待压缩词向量矩阵所包括的词向量进行分类，得到至少两个类别；对所述至少两个类别中至少一个类别进行压缩，并根据所述至少一个类别压缩后得到的词向量，构建经压缩的词向量矩阵，并存储所述经压缩的词向量矩阵。

12.根据权利要求11所述的装置，其特征在于，

所述压缩单元在执行所述根据所述待处理词汇的语义信息，对所述待压缩词向量矩阵所包括的词向量进行分类，得到至少两个类别时，具体用于：对所述待压缩词向量矩阵包括的词向量进行聚类，得到A个类别；2≤A＜N，所述N是所述待压缩词向量矩阵包含的词向量的个数；所述A和所述N均是整数；

所述压缩单元在执行所述对所述至少两个类别中至少一个类别进行压缩，并根据所述至少一个类别压缩后得到的词向量，构建经压缩的词向量矩阵时，具体用于：根据所述A个类别中的各类别的类别中心构成的矩阵，得到所述经压缩的词向量矩阵。

13.根据权利要求12所述的装置，其特征在于，所述A个类别的类别中心包括：所述待压缩词向量矩阵中的、且用于表征所述待处理词汇中的常用词的词向量。

14.根据权利要求12或13所述的装置，其特征在于，所述压缩单元在执行根据所述A个类别中的各类别的类别中心构成的矩阵，得到经压缩的词向量矩阵时，具体用于：

15.根据权利要求12至14任一项所述的装置，其特征在于，所述N个类别包括第一类别，所述装置还包括：

代表词获取单元，用于将所述第一类别的类别中心所表征的词，作为所述第一类别包含的各词向量所表征的词对应的代表词；

发送单元，用于向客户端设备发送所述代表词与所述第一类别包含的各词向量所表征的词之间的对应关系。

16.一种词向量矩阵压缩装置，其特征在于，包括：

压缩单元，用于确定用于表示所述待压缩词向量矩阵的F个特征向量；所述F是所述待压缩词向量矩阵中的一个词向量的维度，所述F是整数；将所述待压缩词向量矩阵投影到所述B个特征向量构成的矩阵上，得到投影后的矩阵；根据所述投影后的矩阵，得到经压缩的词向量矩阵；所述F个特征向量包括所述B个特征向量；B＜F，所述B是整数；

存储单元，用于存储所述经压缩的词向量矩阵。

17.根据权利要求16所述的装置，其特征在于，所述压缩单元在执行所述根据所述投影后的矩阵，得到经压缩的词向量矩阵时，具体用于：

将所述投影后的矩阵作为所述经压缩的词向量矩阵；

18.根据权利要求16或17所述的装置，其特征在于，所述压缩单元在执行所述确定用于表示所述待压缩词向量矩阵的F个特征向量时，具体用于：

19.一种获取词向量的装置，其特征在于，包括：

获取单元，用于获取用于表征待处理词汇的经压缩的词向量矩阵、所述待处理词汇中的多个词与所述待处理词汇的多个代表词之间的对应关系以及所述多个代表词与所述经压缩的词向量矩阵中的多个词向量之间的对应关系；一个代表词与所述经压缩的词向量矩阵中的一个词向量对应；

确定单元，用于根据所述多个词与所述多个代表词之间的对应关系，在所述多个词中查找待处理词，以确定所述待处理词对应的代表词，并将所述待处理词对应的代表词作为目标代表词；以及，根据所述多个代表词与所述多个词向量之间的对应关系，在所述多个代表词中查找所述目标代表词，以确定所述目标代表词对应的词向量，并将所述目标代表词对应的词向量作为用于表征所述待处理词的词向量。

20.根据权利要求19所述的装置，其特征在于，所述获取单元具体用于：通过网络从服务器获取所述经压缩的词向量矩阵和所述多个词与所述多个代表词之间的对应关系。

21.一种词向量矩阵压缩装置，其特征在于，包括：存储器和处理器；所述存储器用于存储计算机指令，所述处理器用于调用所述计算机指令，以执行权利要求1至5任一项所述的词向量矩阵压缩方法。

22.一种词向量矩阵压缩装置，其特征在于，包括：存储器和处理器；所述存储器用于存储计算机指令，所述处理器用于调用所述计算机指令，以执行权利要求6至8任一项所述的词向量矩阵压缩方法。

23.一种获取词向量的装置，其特征在于，包括：存储器和处理器；所述存储器用于存储计算机指令，所述处理器用于调用所述计算机指令，以执行权利要求9或10所述的获取词向量的方法。